0

トピック モデリングを使用したいのですが、MALLET が自分に適していることがわかりました。
約 10 万のドキュメントを使用して最初のデモを正常に作成しました。現在、私の要件に従って、それ以上処理できない 1,000 万のドキュメントを処理する必要があります。新しいドキュメントを既存のトピック モデルに追加することは可能ですか?モデルをマージして単一のモデルにマージし、すべてのモデルをマージして出力を取得します。これは、モデルをバッチ処理してすべてのドキュメントをマージして出力を取得することを考えているため、マレットはそのような大きなドキュメントを一度に処理できないためです
。 10 万のドキュメントの 100 バッチを作成し、各バッチで mallet を実行し、最後に 100 バッチすべてをマージして結果を取得します。

ありがとう

4

1 に答える 1

0

マレットでこれが可能だとは思わない。モデルを作成したら、トレーニング済みのモデルに新しいドキュメントを段階的に追加して再トレーニングできるとは思いません。

誰かが私の答えを支持するか反論するのを待ちます。

于 2015-01-15T13:33:40.553 に答える