0

私はテキスト分類に取り組んでおり、トピック モデル (LDA) を使用したいと考えています。私のコーパスは、少なくとも 24,000 のペルシャのニュース文書で構成されています。コーパス内の各ドキュメントは、ニュースから抽出された (キーワード、重み) ペアの形式になっています。

私は 2 つの Java ツールキットを見ました: mallet と lingpipe です。データのインポートに関するマレットのチュートリアルを読みましたが、私が持っている形式ではなく、プレーンテキストでデータを取得します。変更する方法はありますか?

リングパイプについても少し読んでください。チュートリアルの例では、整数の配列を使用していました。大量のデータに便利ですか?

LDA のどの実装が自分に適しているかを知る必要がありますか? 私のデータに合った他の実装はありますか? (ジャワ語で)

4

1 に答える 1

0

キーワードの重みファイルから、指定された重みでランダムな順序で単語を含む人工テキストを作成できます。生成されたテキストに対して mallet を実行して、トピックを取得します。

于 2015-06-03T20:36:44.540 に答える