多変量インスタンスのセットがあり、これらのインスタンスから代表的なセットを抽出する必要があります。たとえば、100,000 個の多変量インスタンスがある場合、元の分布を表す 1000 個のインスタンスを抽出したいと考えています。ラテン ハイパーキューブ サンプリングとランダム サンプリングを使用して 2 つの代表セットを抽出しましたが、これら 2 つの代表セットが元のセットとどの程度相関しているかを確認したいと考えています。
さらに詳しく説明すると、
私は 100,000 の多変量インスタンスを持っています (それを A と呼びましょう)
「A」から 2 つの代表的なサンプルを導き出します (各セットには 1000 のインスタンスが含まれます。これら 2 つのセットを B および C と呼びましょう)。
「B」と「C」が元の「A」の分布を保持しているかどうかを確認したい。
よろしくお願いします!