資料取樣 Data Sampling
提供各種取樣技術,讓您在大量資料海中快速縮減樣本。
Last updated
提供各種取樣技術,讓您在大量資料海中快速縮減樣本。
Last updated
DataVerse 提供多種取樣技術,幫助使用者有效地選擇用於分析、訓練或測試目的的 data slices。平台提供三種主要的取樣方法:簡單隨機取樣(Simple Random Sampling)、系統取樣(Systematic Sampling)和序列平衡取樣(Sequence-balance Sampling)。每種技術都有不同的用途,使用者可以根據特定的需求選擇最適合的一種。
簡單隨機取樣從 data slice 中隨機選取資料項目,排除任何指定項目,直到達到所需的樣本大小。這種技術確保了對總體的無偏表示,並且適合需要資料的隨機子集的情況。
系統取樣涉及按順序選擇 data slice 中的資料項目,排除任何指定項目,直到達到所需的樣本大小。此方法提供了更結構化的取樣方法,並在需要更均勻分布的資料集表示時非常有用。
序列平衡取樣從每個序列中選擇固定數量的資料項目,排除任何指定項目,並且如果未達到固定數量,則用可用資料填充樣本。這種技術確保了來自不同序列的資料的平衡表示,並適合需要跨序列平等代表的情況。
「類別平衡」取樣策略旨在均勻分配每個選定類別的物件數量。如果包含所有選定類別的條目數量低於期望的樣本大小,系統將隨機選擇其他條目以達到配額。
「標籤平衡」取樣策略旨在基於目標標籤(Option和Boolean類型)的存在均勻分配數據集中的圖片。我們努力在設定數量的圖片內實現標籤平衡,但如果由於標籤實例不足而無法達到期望的平衡,系統將隨機選擇圖片來填補其餘部分。
考慮以下情景:seq1 有 100 張圖片,而 seq2 有 900 張圖片。如果您想取樣 200 張圖片,則取樣技術將如下所示:
Sequence-balance Sampling: seq1 將貢獻 100 張圖片(所有可用圖片),而 seq2 將貢獻剩下的 100 張圖片。
Systematic Sampling: 將 1,000 張圖片(來自 seq1 的 100 張和來自 seq2 的 900 張)按順序排列,並選擇每第 5 張圖片(第 1 張,第 6 張,第 11 張等),直到取樣了 200 張圖片。
通過提供各種取樣技術,Dataverse 使用者能夠根據特定需求量身定制他們的資料選擇過程,確保對資料分析、模型訓練和評估進行有效和有針對性的方法。