問題タブ [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Mallet でトレーニングされた CRF を読み込んで使用するにはどうすればよいですか?
を使用して CRF をトレーニングしました。ファイルGenericAcrfTui
に書き込みACRF
ます。トレーニング済みの CRFを読み込んで使用する方法はよくわかりませんが、
動作するようです。ただし、ラベル付けは正しくないようで、入力として渡すラベルに依存しているようです。 ロードされた ACRF を使用してラベルを付けるにはどうすればよいですか?
ラベル付けの方法は次のとおりです。
を見てわかったGenericAcrfTui
。私が試したいくつかのこと:
- 異なる初期ラベル (「O」以外) を付けようとすると、結果のラベル付けが変更されましたが、最初に付けるラベルを推測できないため、これは役に立ちません。そうしないと、タガーは必要ありません。
- 最初のラベルをまったく付けないようにしましたが、例外が発生しました。Mallet は本当にそれらのラベルが必要なようです。
SimpleTagger
a のトレーニングに使用できるもあることに気付きましたが、CRF
それを使用して新しい入力にラベルを付けるために同じ問題が発生すると思います。
SimpleTagger
またはからのCRFを使用したラベル付けに関するヘルプGenericAcrfTui
が役立ちます。
ところで、通常は CRF++ を使用しますが、このタスクでは、依存関係解析機能を使用しているため、独自のグラフを作成したいと考えています。
topic-modeling - MALLET でのトピック モデルの増分トレーニング
MALLETのドキュメントによると、トピック モデルを段階的にトレーニングすることが可能です。
「-output-model [ファイル名] このオプションは、シリアル化された MALLET トピック トレーナー オブジェクトを書き込むファイルを指定します。このタイプの出力は、トレーニングの一時停止と再開に適しています」
あるデータ セットでトピックをトレーニングしてから、別のデータ セットでモデルをインクリメントしたいと考えています。両方のトレーニング ステップの後、両方のデータセットの状態を出力したいと思います (--output-state を使用)。これが私がそれをやろうとする方法です:
最後のコマンドで「 --input-model model 」を追加すると、2 番目のデータセットのデータが output-state ファイルに存在しません。追加しないと、最初のデータセットのデータが出力状態ファイルに存在しません。
コード内のモデルにインスタンスを追加しようとすると:
エラーが発生します:
以前、MALLET リストに同様の質問がありました: http://permalink.gmane.org/gmane.comp.ai.mallet.devel/924、http://permalink.gmane.org/gmane.comp.ai.mallet .devel/2139
では、トピック モデルの増分トレーニングは可能でしょうか?
lda - Mallet Api - 一貫した結果を得る
私はLDAとマレットが初めてです。次のクエリがあります
コマンドラインで Mallet-LDA を実行してみましたが、--random-seedを固定値に設定することで、アルゴリズムを複数回実行しても一貫した結果を得ることができました
ただし、Mallet-Java-API を試してみましたが、プログラムを実行するたびに異なる出力が得られます。私はグーグルで検索したところ、ランダムシードを修正する必要があることがわかり、Javaコードで修正しました。私はまだ異なる結果を得ています。
一貫した結果を得るために他にどのようなパラメーターを考慮する必要があるかを誰かに教えてもらえますか (複数回実行した場合)
複数回実行した場合(コマンドライン)に同じ結果が得られるtrain-topicsを追加したい場合があります。ただし、import-dirを再実行してからtrain-topicsを実行すると、結果が前のものと一致しません。(おそらく予想通り)。import-dirを 1 回だけ実行してから、 train-topicsを実行してさまざまな数のトピックと反復を試しても問題ありません。同様に、Java-Api を使用するときに同じものを複製したい場合は、何を変更/一定に保つ必要がありますか。
topic-modeling - トピックモデリングとトピックの類似点の発見
問題文: いくつかのドキュメント (20k ドキュメント) があります。トピック モデリングを適用して類似のドキュメントを見つけ、それらの類似のドキュメントを分析して、それらが互いにどのように異なっているかを見つける必要があります。Q: これを達成するためのトピック モデリング パッケージを提案してくれる人はいますか? Mallet と Gensim Python を調べています。どちらが私の要件に最も適しているかわかりません。
どんな助けでも大歓迎です。
java - MALLET トピック モデリング: 入力文字列
ファイル .mallet をインポートする次のコードがあります。
しかし、すべてのインスタンスを手動で切り替えたい場合、どうすればよいでしょうか? 私はこれを試しました:
しかし、それは私にエラーを与えます!
編集
私はそれを試してみましたが、文字列の配列で動作するようです:
java - Mallet Java: ドキュメント コレクションの確率分布を取得する
KL-Divergence を使用できるようにする必要があるため、ドキュメントのコレクションに対して単一の確率分布を取得したいのですが、これは可能ですか?
この例では: http://mallet.cs.umass.edu/topics-devel.php メソッド getTopicProbabilities() を使用して、各インスタンスの確率分布を取得しますが、ドキュメントのコレクションに対して単一の分布を取得したい場合?
これはドキュメントのトピック配布でしょうか?
java - Mallet TopicModel を実行できません
Mallet のトピック モデリングを実行しようとしていますが、次のエラーが発生しました。
私はすでにすべてのjarファイルを追加しました! ここで何が問題なのか教えてください。
ありがとう、