資料切割 Data Spliting
根據各種情況來切割您所想要的data slice
Last updated
根據各種情況來切割您所想要的data slice
Last updated
資料切割是準備機器學習和AI模型訓練資料集的重要步驟。
DataVerse提供了多功能且直觀的資料切割功能,允許用戶根據特定標準有效地劃分資料,讓您的模型在多樣化且具代表性的資料樣本上進行訓練。
在 data slice 中,點擊 Split ,會彈出一個窗口要求您確認該數據片段打算切割的百分比。
DataVerse中的切割選項: 當您選擇在DataVerse中切割一個Data Slice時,您有四個不同的選項來定制這個過程:
Random:這個選項隨機劃分您的數據,確保每個子集中混合了各種元素。
Sequence Independent:切割數據以確保每個子集中的序列是獨立的,適合於時間序列或連續數據。如果可用的獨立序列不足,這可能導致您切割的數據片段中的圖片數量少於預期。
Class Balance:確保每個子集都在您的地面真實數據中平衡地代表了不同的類別,這對於無偏見的模型訓練至關重要。我們努力在設定數量的圖片內實現類別平衡,如果由於類別實例不足而無法達到期望的平衡,系統將隨機選擇圖片來填補其餘部分。
Tag Balance:專注於在每個子集中平衡用戶定義標籤的分佈,確保所有標籤元素的全面代表性。「標籤平衡」切割策略旨在根據目標標籤(Option和Boolean類型)的存在均勻分配數據集中的圖片。我們努力在設定數量的圖片內實現標籤平衡,但如果由於標籤實例不足而無法達到期望的平衡,系統將隨機選擇圖片來填補其餘部分。
過程和可視化
一旦您選擇了方法並點擊「Split」,DataVerse就會根據您的選擇有效地劃分您的數據。切割後,您可以在「數據可視化」部分查看和分析新創建的數據子集,並查詢「Data Slice」。
在這裡,您還可以訪問提供各子集組成和特性的各種指標。
Dataverse中資料切割的好處:
提高模型準確性:通過在結構良好且平衡的數據上訓練您的模型,您增加了更高準確性和泛化的可能性。
緩解偏見:平衡的數據集有助於減少偏見,導致更可靠和更符合道德的AI解決方案。
簡化工作流程:Dataverse的數據切割簡化了為AI準備數據的往往複雜的過程,節省時間和精力。
根據需求定制:無論是處理時間序列數據還是需要Class/Tag平衡,該平台都能適應多樣的項目要求。
總之,Dataverse的數據切割功能是您的AI和機器學習工具箱中的一項強大工具,幫助您有效地為最佳模型性能準備數據。