問題タブ [maxent]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
7355 参照

r - ROCR パッケージを使用した R では、予測の形式が無効です

RでROCRパッケージを使用していますが、「予測(予測、ラベル):予測の形式が無効です」というエラーが発生しました。

解決策を教えてください。

コードは次のとおりです。

0 投票する
2 に答える
170 参照

machine-learning - 最大エントロピー分類間の「コンセンサス」

A、B、C の 3 つのクラスがあり、標準の MaxEnt 分類子を使用してドキュメント 'd' を分類すると、次の確率が得られます。

ある意味で、この一連の確率とは大きく異なるように感じます。

これら2つの違いをスコアリングする方法はありますか?

0 投票する
0 に答える
1137 参照

machine-learning - wekaのMaxEntropyが常にJVMのヒープ不足になるのはなぜですか?

テキスト分類のために weka で最大エントロピーを試しています。Max Entropy に相当する Weka の Logistic Regression を使用しています。私はそれが計算的に高価であることを読みました。JVMに割り当てられた2Gの現在の設定があり、最大エントロピーを評価するためにワードベクトルの次元を10, 000に保ちますが、常にJVMのメモリ不足になります。2Gのヒープサイズはどの分類子にも十分すぎるため、これは私が間違いを犯していると思いますね。

1) Weka で MaxEnt(Logistic.Java) を使用した人はいますか? テキスト分類にはとても遅いはずですか?

2) 私が無視しているかもしれない MaxEnt に必要なパラメータ調整はありますか?

0 投票する
2 に答える
1655 参照

twitter - maxent 分類器のトレーニング方法

[プロジェクト スタック : Java、Opennlp、Elasticsearch (データストア)、twitter からデータを読み取る twitter4j]

maxent classifier を使用してツイートを分類するつもりです。最初のステップはモデルのトレーニングであることを理解しています。ドキュメントから、モデルをトレーニングするための GISTrainer ベースの train メソッドがあることがわかりました。opennlp の maxent 分類子を使用してモデルをトレーニングし、結果を予測する単純なコードをまとめることができました。

モデルをトレーニングするために、2 つのファイル postive.txt と negative.txt を使用しました。

positive.txt の内容

ネガティブ.txtの内容

そして、以下の Java メソッドが結果を生成します。

次の質問があります。

1) モデルを反復的にトレーニングするにはどうすればよいですか? また、モデルに新しい文/単語を追加するにはどうすればよいですか? データファイルに特定のフォーマットはありますか? ファイルには、タブで区切られた 2 つ以上の単語が必要であることがわかりました。私の理解は有効ですか?2) モデルのトレーニングに使用できる、公開されているデータ セットはありますか? 映画のレビューの情報源をいくつか見つけました。私が取り組んでいるプロジェクトには、映画のレビューだけでなく、製品のレビュー、ブランドの感情なども含まれます。 3) これはある程度役に立ちます。どこかで公開されている実用的な例はありますか? maxent のドキュメントが見つかりませんでした。

私を助けてください。私はこれでちょっとブロックされています。

0 投票する
1 に答える
765 参照

r - 分類のための R の MAXENT モデル

RTextToolsRを使用してパッケージを使用してテキストを分類しようとしています.

- を使用してこれを実行しましSVMた (そして、以下のコードは正常に動作します:)

MAXENTしかし、アルゴリズムで同じことをすると

それは私にエラーをスローします:

トレースバックを行ったとき-以下の詳細を取得しました

アップデート:

この問題を解決する方法はありますか。

0 投票する
2 に答える
1429 参照

java - OpenNLP のモデル作成プロセスを高速化する方法

非構造化データの解析に OpenNLP Token Name finder を使用しています。4MM レコードのコーパス (トレーニング セット) を作成しましたが、Eclipse で OpenNLP API を使用してこのコーパスからモデルを作成しているため、プロセスには約 3 時間かかります。非常に時間がかかります。モデルは、反復 100 およびカットオフ 5 であるデフォルト パラメーターに基づいて構築されています。

私の質問は、このプロセスをスピードアップするにはどうすればよいか、モデルを構築するプロセスにかかる時間を短縮するにはどうすればよいかということです。

コーパスのサイズがこの理由である可能性がありますが、誰かがこの種の問題に遭遇したかどうか、もしそうなら、これを解決する方法を知りたかっただけです.

手がかりを教えてください。

前もって感謝します!