問題タブ [mallet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1127 参照

java - Cygwin で Mallet を使用する

私はPOSIX環境のためにWindowsでCygwinを使用しています。

しかし、MALLET ツールキットを使用すると、クラスを見つける際に問題が発生します。例えば:

クラスパスをbashスクリプトにラップしようとしました`cygpath -pw $cp`が、役に立ちませんでした。

0 投票する
0 に答える
117 参照

terminal - mallet を使用して単語トピック確率を取得する

ターミナルからマレットを使用しています。トレーニング データを単一のファイル形式でインポートしました。

また、train-topics コマンドを使用して、いくつかのサイズのトピック モデルを作成しました。

私が今やりたいことは、訓練されたモデルを同じフォーマットのテストセットでテストすることです。より具体的には、可能であれば、各テスト ファイルに割り当てられたトピックと、そのトピックとテスト ファイルの各単語の確率を取得したいと考えています。任意のトピックの各単語の確率も取得できれば、それは素晴らしいことです.

ありがとうございました

0 投票する
0 に答える
301 参照

machine-learning - 条件付き確率場、概念、および用語の明確化が必要: マルコフ次数、遷移、接続性

条件付きランダム フィールドを使用するために Mallet を使用しています。私の理解では、CRFにはノードの接続方法に応じていくつかの種類のマルコフ順序があります。図では、上から 3 四半期の注文、1 番目の注文、2 番目の注文です。ここに画像の説明を入力

  1. 概念の確認:「マルコフ次数」、「接続性」、「遷移」という用語は、すべて同じ概念を指しているように見えるため、基本的に混乱しています。ノードを接続するエッジがあれば、ノードを別のノードに移行できると思います。これですか、それとも何か不足していますか?

  2. 注文パラメータMallet では、使用したいマルコフ次数のパラメータを設定できます。1、2、0.75 かかると思っていましたが、代わりに 2 つのパラメータが必要で、「メインとバックオフの順序」として説明されています。 . これは何を意味するのでしょうか?

  3. 私のタスクは順次タグ付けに似ているため、CRF を使用しようとしました。私が行っている分類タスクは、前のノードの分類結果と非常に相関しています。このタスクに SVM を使用したとき、「前のノード ラベル」機能を含めて 2 段階の学習を行いました。最初に「前のノード ラベル」の真理データを使用して SVM をトレーニングし、次にその予測結果を使用して別のモデルをトレーニングしました。最初の分類子。しかし、CRF で、前のノードのラベルを含む 2 次を使用する場合、このような学習やこの機能の使用は不要でしょうか? これを明確に説明していることを願っています。

0 投票する
5 に答える
2107 参照

topic-modeling - Mallet トピック モデルの例がコンパイルできない

(コマンドラインを使用する代わりに) Java で mallet をコンパイルしたいので、プロジェクトに jar を含め、http: //mallet.cs.umass.edu/topics-devel から例のコードを引用します。 phpですが、このコードを実行すると、次のエラーが発生します。

エラーの原因がわかりません。誰でも助けてもらえますか?

}

0 投票する
1 に答える
205 参照

machine-learning - マレットのディリチェレット パラメータが 1 より大きい

トピックモデリング(LDA)を実行するためにMALLETを使用しています。

データセットで 20 のトピックを検出しようとしました結果は次のとおりです (この質問ではキーワードのリストは重要ではありません)。

各行の 2 番目の数値 (たとえば、行 0 の 0.05013) がディリクレ パラメータを表していることを読みました。この数字はトピックの重要性 (ドキュメント全体の存在) を表していると考え、合計は 1 になるはずだと考えました。

しかし、そうではありません!値が 1.0515 であるトピック 18 のみを調べます。

このパラメータが実際に何を表しているのか、特定のトピックで 1 よりも大きい理由を説明してもらえますか?

前もって感謝します

0 投票する
1 に答える
159 参照

nlp - Mallet で定義済みのトピックを使用する

Mallet を使用して、定義したトピックごとにさまざまなドキュメントを分類しようとしています。Mallet が最初にトピックを決定し、次にドキュメントを分類することはわかっていますが、最初のステップはスキップしたいと思います。トピックに関連する単語を含むトピックのリストが既にあるからです。Mallet でドキュメントを分類するために作成した定義済みのトピック リストを使用する方法はありますか?

任意のガイダンスをいただければ幸いです。ありがとう!

0 投票する
1 に答える
508 参照

mallet - トークン正規表現コマンド後の無限値エラー

--token-regex '[\p{L}\p{M}]+',マレットがドイツ語のテキストを読めるように、テキストをインポートするための通常のコマンドでコマンドを使用しようとしています。エラー メッセージは表示されず、新しいファイルが作成されます。しかし、それは疑わしいほど小さいです。次に、train-topicstopic-model を使用して実行すると、次のエラー メッセージが表示されます。

さまざまなトークン正規表現コマンドを使用して何時間もこれを修正しようとしましたが、何も機能していないようです。助けがあれば大歓迎です。