トピック モデリングを使用したいのですが、MALLET が自分に適していることがわかりました。
約 10 万のドキュメントを使用して最初のデモを正常に作成しました。現在、私の要件に従って、それ以上処理できない 1,000 万のドキュメントを処理する必要があります。新しいドキュメントを既存のトピック モデルに追加することは可能ですか?モデルをマージして単一のモデルにマージし、すべてのモデルをマージして出力を取得します。これは、モデルをバッチ処理してすべてのドキュメントをマージして出力を取得することを考えているため、マレットはそのような大きなドキュメントを一度に処理できないためです
。 10 万のドキュメントの 100 バッチを作成し、各バッチで mallet を実行し、最後に 100 バッチすべてをマージして結果を取得します。
ありがとう