2

潜在意味索引付け(LSI)は統計的分類アルゴリズムですか?なぜまたはなぜそうではないのですか?

基本的に、統計分類のウィキペディアのページでLSIについて言及されていない理由を理解しようとしています。私はちょうどこのことに取り掛かっていて、何かを分類するためのすべての異なるアプローチが互いにどのように関連しているかを見ようとしています。

4

4 に答える 4

5

いいえ、まったく同じではありません。統計的分類は、アイテムを可能な限り明確にカテゴリに分類することを目的としています。たとえば、アイテムXがグループAまたはグループBのアイテムに似ているかどうかを明確に判断するためです。

LSIは、アイテムがどの程度類似しているか、または異なっているかを示し、主に、指定されたアイテムとの類似度を示すアイテムを見つけることを目的としています。これはていますが、まったく同じではありません。

于 2009-10-27T23:00:44.113 に答える
3

LSI / LSAは、最終的には次元削減の手法であり、通常、最近傍アルゴリズムと組み合わせて分類システムにします。したがって、それ自体、SVDを使用して低次元のデータに「インデックスを付ける」唯一の方法です。

于 2009-10-27T23:15:47.467 に答える
1

ウィキペディアでLSIについて読んだことがありますか?行列因数分解(SVD)を使用しているとのことですが、これは分類に使用されることもあります。

于 2009-10-27T22:46:09.943 に答える
1

機械学習の主な違いは、「教師あり」モデリングと「教師なし」モデリングの違いです。

通常、「統計的分類」という言葉は教師ありモデルを指しますが、常にそうとは限りません。

教師ありメソッドを使用すると、トレーニングセットには、予測するモデルを作成する「グラウンドトゥルース」ラベルが含まれます。モデルを評価するときの目標は、評価時に得られない真のラベル(またはその確率分布)での最良の推測を予測することです。多くの場合、パフォーマンスメトリックがあり、正しい答えと間違った答えが何であるかは非常に明確です。

教師なし分類法は、複雑な方法で変化するように見える可能性のある多数のデータポイントを少数の「類似した」カテゴリにクラスター化しようとします。各カテゴリのデータは、ある種の「興味深い」または「深い」方法で類似している必要があります。「グラウンドトゥルース」がないため、「正しいか間違っているか」を評価することはできませんが、「多い」と「少ない」は興味深いか有用です。

同様に、評価時間では、新しい例を潜在的にクラスターの1つに配置するか(クリスプ分類)、クラスターの「原型」にどの程度類似または異なるかを定量化するある種の重み付けを行うことができます。

したがって、ある意味で、教師ありモデルと教師なしモデルは、「予測」、つまりクラス/クラスターラベルの予測である何かを生成できますが、本質的に異なります。

多くの場合、教師なしモデルの目標は、後続の教師ありモデルに、よりインテリジェントで強力にコンパクトな入力を提供することです。

于 2009-10-28T02:13:38.873 に答える