14

次元削減とは正確にはどういう意味ですか?

その意味を調べたところ、生データをより有用な形式に変換することを意味していることがわかりました。では、有用な形式のデータを持つことの利点は何ですか?つまり、実際の生活(アプリケーション)でデータをどのように使用できるのでしょうか?

4

6 に答える 6

35

次元削減とは、非常に高い次元のデータをはるかに低い次元のデータに変換して、それぞれの低い次元がより多くの情報を伝達できるようにすることです。

これは通常、機械学習の問題を解決して、分類または回帰タスクのより良い機能を取得するときに行われます。

これは不自然な例です - 100 本の映画と 1000 人の人のリストがあり、各人について、100 本の映画のそれぞれが好きか嫌いかを知っているとします。したがって、各インスタンス (この場合は各人物を意味します) に対して、長さ 100 のバイナリ ベクトルがあります [位置 i は、その人物が i 番目の映画を嫌いな場合は 0、それ以外の場合は 1 です]。
これらのベクトルで機械学習タスクを直接実行できます..代わりに、5 つのジャンルの映画を決定し、既存のデータを使用して、その人がそのジャンル全体を好きか嫌いかを判断し、この方法でデータを減らすことができます。サイズ 100 のベクトルからサイズ 5 のベクトルへ [その人がジャンル i を好む場合、位置 i は 1 です]

長さ 5 のベクトルは、長さ 100 のベクトルをよく表していると考えることができます。これは、ほとんどの人が好みのジャンルの映画だけを好む可能性があるためです。

ただし、あるジャンルの映画を 1 つを除いてすべて嫌いな人がいる可能性があるため、正確な代表例とは言えません。

ポイントは、削減されたベクトルは、より少ないスペースを消費し、より高速に計算しながら、より大きなベクトルでほとんどの情報を伝達することです。

于 2010-01-03T10:03:32.820 に答える
8

あなたの質問は少し漠然としていますが、似たようなことを行う主成分分析と呼ばれる興味深い統計手法があります(ちなみに、私の最初の現実世界のプログラミングタスクである結果をプロットします)。

これは、非常に広く適用できる巧妙で巧妙なテクニックです。私はそれをタンパク質のアミノ酸配列間の類似性に適用しましたが、バクテリア間の関係からモルトウイスキーまで、あらゆる分析に使用されているのを見てきました.

1 つが 2 つの独立した変数を持つもののコレクションのいくつかの属性のグラフを考えてみましょう。これらの関係を分析すると、明らかに 2 つの次元でプロットされ、ポイントの分散が見られる場合があります。変数が 3 つある場合は 3D グラフを使用できますが、その後は次元が不足し始めます。

PCA では、数十、場合によっては 100 以上の独立因子があり、そのすべてを垂直軸上にプロットする必要があります。PCAを使用してこれを行い、結果の多次元グラフを分析して、グラフ内で最大量の情報を含む2つまたは3つの軸のセットを見つけます。たとえば、最初の主座標は、ポイントがそれに沿ってプロットされたときに最も多くの情報を持つ複合軸 (つまり、n 次元空間を通るある角度) になります。2 番目の軸はこれに垂直です (これは n 次元空間なので、多くの垂直線があることを思い出してください)。これには 2 番目に多くの情報が含まれます。

結果のグラフを 2D または 3D でプロットすると、通常、元のデータセットに含まれる大量の情報を含むデータを視覚化できます。元のデータの約 70% を含む表現を探すことで、この手法が有効であると見なされるのが通常です。これは、そうでなければ生の統計では明らかではない、ある程度の信頼を持って関係を視覚化するのに十分です。この手法では、すべての因子が同じ重みを持つ必要がありますが、より広く知られるに値する非常に広く適用可能な方法であり、ほとんどの統計パッケージで利用できることを考えると (私は 1980 年に ICL 2700 で作業を行いました。 iPhoneと同じくらい強力です)

于 2010-01-03T10:21:51.333 に答える
2

http://en.wikipedia.org/wiki/Dimension_reduction

次元削減アルゴリズムである PCA (主成分分析) について聞いたことがあるかもしれません。

その他には、LDA、行列分解ベースの方法などが含まれます。

簡単な例を次に示します。多くのテキスト ファイルがあり、各ファイルはいくつかの単語で構成されています。ファイルは 2 つのカテゴリに分類できます。分布を明確に確認できるように、ファイルを 2D/3D 空間の点として視覚化する必要があります。したがって、大量の単語を含むファイルを 2 次元または 3 次元だけに変換するには、次元削減を行う必要があります。

于 2010-01-03T10:01:11.760 に答える
2

何かの測定の次元は、それを記述するために必要な数です。したがって、たとえば、空間内の点の位置を記述するために必要な数値の数は 3 (x、y、および z) になります。

ここで、山を通る長く曲がりくねった線路に沿った列車の位置を考えてみましょう。一見すると、これは 3 次元の問題のように見えるかもしれません。指定するには、経度、緯度、および高さの測定値が必要です。しかし、代わりに最初からトラックに沿って移動した距離を取るだけで、この 3 つの次元を 1 つに減らすことができます。

ニューラル ネットワークまたは何らかの統計手法を使用して、特定の量の燃料を与えられた列車がどれだけ遠くまで移動できるかを予測するタスクが与えられた場合、3 次元バージョンよりも 1 次元データを操作する方がはるかに簡単です。

于 2010-01-08T07:56:28.550 に答える
0

データマイニングの技術です。その主な利点は、多次元データの視覚的表現を生成できることです。人間の脳は、視覚データのパターンを見つけて分析する点で比類のないものですが、最大 3 次元 (時間を使用する場合は 4 次元、つまりアニメーション表示) を処理できます。または 2 (3D でのデータのプロットは技術的に困難なことが多いため)。

ところで、次元削減の非常に単純な形式は、色を使用して、たとえばヒートマップで追加の次元を表すことです。

于 2010-01-03T10:35:40.913 に答える
0

成人の大規模なコレクションに関する情報のデータベースを構築しているとします。こちらもかなり詳しくなります。したがって、データベースは大きな次元になると言えます。

AAMOF の各データベース レコードには、実際にはその人の IQ と靴のサイズの測定値が含まれます。ここで、これら 2 つの特性が非常に高い相関関係にあると仮定しましょう。IQ に比べて靴のサイズは簡単に測定できるので、できるだけ早く有用なデータをデータベースに入力したいと考えています。私たちにできることの 1 つは、靴のサイズを記録して新しいデータベース レコードを作成し、IQ データを収集するタスクを後回しにすることです。2 つの測定値は相関しているため、靴のサイズを使用して IQ を推定することはできます。

最初は IQ を記録から除外することで、実用的な次元削減の非常に単純な形式を使用します。主成分分析、さまざまな形式の因子分析、およびその他の方法は、この単純なアイデアの拡張です。

于 2010-01-03T14:54:04.340 に答える