2

Mallet でトピック モデリングを使用しようとしていますが、質問があります。

モデルをいつ再構築する必要があるかを知るにはどうすればよいですか? たとえば、Web からクロールしたこの量のドキュメントがあり、Mallet が提供するトピック モデリングを使用して、モデルを作成し、それを使用してドキュメントを推測できる可能性があります。しかし、時間の経過とともに、私がクロールした新しいデータにより、新しい主題が現れる可能性があります. その場合、モデルを最初から現在まで再構築する必要があるかどうかはどうすればわかりますか?

毎月クロールするドキュメントに対してそうしようと考えていました。誰かアドバイスしてもらえますか?

したがって、トピック モデリングは、一定量のトピック (入力パラメーター k、トピック数) の下のテキストにより適しています。そうでない場合、使用する番号を実際にどのように決定しますか?

4

1 に答える 1

3

質問に対する答えは、扱うデータの種類とコーパスのサイズによって大きく異なります。

頻度に関しては、データが意味のある方法で変更される頻度を推定し、その速度で改造する必要があると思います。1 週間から始めて、新しいデータが大幅に異なるモデルにつながるかどうかを確認できます。そうでない場合は、2 週間などを試してください。

選択するトピックの数は、モデルで探しているものによって決まります。数値が大きいほど、結果はよりきめ細かくなります。コーパスの内容を幅広く概観したい場合は、たとえば 10 個のトピックを選択できます。よく見ると、200 などの適切な数値を使用できます。

それが役立つことを願っています。

于 2010-09-16T22:41:41.993 に答える