私はテキスト分類に取り組んでおり、トピック モデル (LDA) を使用したいと考えています。私のコーパスは、少なくとも 24,000 のペルシャのニュース文書で構成されています。コーパス内の各ドキュメントは、ニュースから抽出された (キーワード、重み) ペアの形式になっています。
私は 2 つの Java ツールキットを見ました: mallet と lingpipe です。データのインポートに関するマレットのチュートリアルを読みましたが、私が持っている形式ではなく、プレーンテキストでデータを取得します。変更する方法はありますか?
リングパイプについても少し読んでください。チュートリアルの例では、整数の配列を使用していました。大量のデータに便利ですか?
LDA のどの実装が自分に適しているかを知る必要がありますか? 私のデータに合った他の実装はありますか? (ジャワ語で)