10

トピックモデリングは、ドキュメントコレクション内のトピックの分布を識別し、コレクション内のクラスターを効果的に識別します。それで、トピックモデリングはドキュメントクラスタリングを行うための技術であると言うのは正しいですか?

4

2 に答える 2

12

トピックはドキュメントのクラスターとはまったく異なります。結局のところ、トピックはドキュメントで構成されていません。

ただし、これら2つの手法は確かに関連しています。トピックモデリングは、ドキュメントがどれほど類似しているかを決定するための実行可能な方法であり、したがって、ドキュメントのクラスタリングのための実行可能な方法であると私は信じています。

各ドキュメントをトピック分布(実際にはベクトル)として表す場合、トピックモデリング手法は、特徴の次元を(コーパスに)出現する個別の単語の数からトピックの数に減らします。ドキュメントのトピック分布間の類似性は、コサインメトリックと他の多くのメトリックを使用して計算できます。これは、ドキュメントがカバーするトピック/テーマに関するドキュメント自体の類似性を反映しています。この定量化された類似性測度に基づいて、多くのクラスタリングアルゴリズムを適用してドキュメントをグループ化できます。

そしてその意味で、トピックモデリングはドキュメントクラスタリングを行うための手法であると言うのは正しいと思います。

于 2013-03-24T12:49:30.220 に答える
3

クラスタリングと分類の関係は、トピックモデリングとマルチラベル分類の関係と非常によく似ています。

シングルラベルマルチクラス分類では、ドキュメントごとに1つのラベルのみを割り当てます。また、クラスタリングでは、各ドキュメントを1つのグループにまとめます。実際には、ラベルを定義するため、クラスターを事前に定義することはできません。この事実を無視すると、グループ化とラベル付けは本質的に同じものです。

ただし、実際の問題では、フラットな分類では不十分です。多くの場合、ドキュメントは複数のカテゴリ/クラスに関連しています。したがって、マルチラベル分類を活用します。これで、トピックモデリングは、各ドキュメントを複数のグループ/トピックの下に配置できるため、教師なしバージョンのマルチラベル分類と見なすことができます。ここでも、ラベルとして使用するトピックを事前に決定できないという事実を無視しています。

于 2017-07-09T22:47:22.223 に答える