1

単一のドキュメントに記事のコーパスがあり、ユーザーが入力に関連する記事を検索できるようにする検索機能を後で使用するために、MALLET のトピック モデリング アルゴリズムを適用しています。私が使用しているアルゴリズムは、ここにあるトピック モデリング API 開発者ガイドです。

私はトピックモデリングを初めて使用しますが、理解する限り、このトピックに関連する単語を保持するユーザー指定の数のトピックを生成しますが、プログラムはトピックが何であるかを知りません。これはユーザーが手動で指定する必要がありますよね?

私の質問は、後で使用できるようにこれらのトピック名を手動で設定するにはどうすればよいですか? つまり、アルゴリズムからのトピック出力は次のようになります。

0 bush republican usa immigration mexico control conservatives

ここで、0 はトピックの名前です。私が欲しいのは、名前を次のようなものに手動で変更することです:

Immigration Policy: bush republican usa immigration mexico control conservatives

何か助けてください。

4

1 に答える 1

3

トピック番号と手動で割り当てられたラベルを含む別のファイルを保持することをお勧めします。たとえば、次の形式で

0 Immigration_Policy

次に、Mallet からのすべての出力ファイルのトピック番号をラベルに関連付けることができます。

于 2015-08-13T09:44:03.990 に答える