問題タブ [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
classification - Mallet : Maxent アルゴリズムで信頼値を取得する
ラベルの分類にマレットで maxent アルゴを使用しています。maxent 分類子によって予測されたラベルについて、ある種の信頼値を取得できるかどうか疑問に思っていました。私が基本的に必要としているのは、分類子が最も自信を持ってブートストラップに使用する上位 K 個の予測 (トークンごとではなく、データ全体からの) インスタンスです。これを行う方法はありますか?
text-mining - 保存されたトピックの状態を使用して、マレットでトピックを推測する
次のコマンドを使用して、いくつかのドキュメントからトピック モデルを生成しました。
ただし、--output-model
シリアル化されたトピック トレーナー オブジェクトを生成するオプションは使用していません。状態ファイルを使用して、新しいドキュメントのトピックを推測する方法はありますか? トレーニングは遅く、シリアル化されたモデルをゼロから作成する必要がある場合、再トレーニングに数日かかります。
nlp - NERにマレットを使用する方法
私はNLPの主題に不慣れで、マレットを使用して-固有表現抽出-(NER)を実行するように要求されました。テキストがあり、その中の各単語の特徴ベクトルを示します。後で新しいテキストファイルでテストできるモデルをトレーニングしたいと思います。私の質問は、そのようなモデルをどのように作成するか、モデルの入力は何であるかです。私はいくつかのコード例を使うことができます:)ありがとう!
nltk - MALLET対NLTKにおけるトピックモデリング
MALLETをトピックモデリングにどのように使用できるかについての興味深い記事を読んだばかりですが、MALLETとNLTKを比較したオンラインでは何も見つかりませんでした。これは私がすでに経験したことです。
それらの主な違いは何ですか?MALLETはより「完全な」リソースですか(たとえば、内部にさらに多くのツールとアルゴリズムがあります)?または、これらの最初の2つの質問に答える良い記事はどこにありますか?
nlp - ドキュメントの単一およびバッチの MALLET トピック推論で異なる結果が得られるのはなぜですか?
Mallet 2.0.7 で LDA トピック モデリングを実行しようとしています。トレーニング セッションの出力から判断すると、LDA モデルをトレーニングして良い結果を得ることができます。また、そのプロセスに組み込まれている推論を使用して、トレーニング ファイルを再処理するときに同様の結果を得ることができます。ただし、より大きなトレーニング セットから個々のファイルを取得し、それを推論器で処理すると、非常に異なる結果が得られます。これは良くありません。
私の理解では、推論者は固定モデルを使用し、そのドキュメントにローカルな機能のみを使用する必要があるため、トレーニング セットから 1 ファイルまたは 1k を処理しているときに異なる結果が得られる理由がわかりません。私は、この種の効果を持つグローバルな操作のように見える周波数カットオフを行っていません。以下のコマンドで使用している他のパラメーターを確認できますが、ほとんどがデフォルトです。反復回数を 0 または 100 に変更しても効果はありませんでした。
データのインポート:
訓練:
トレーニング中に特定の 1 つのファイルに割り当てられたトピック、#14 は正しいワインに関するものです。
トレーニング バッチ全体で推論を実行します。
電車での推論スコア -- 非常によく似ています:
その 1 つの txt ファイルのみで構成される別のトレーニング データ ファイルで推論を実行します。
1 つのドキュメントを推論すると、トピック 80 と 36 が生成されますが、これらは大きく異なります (14 はほぼ 0 のスコアが与えられます)。
weka - テキスト分類のための Mallet と Weka
テキスト分類タスクには、どちらの製品 (Mallet または Weka) が適していますか?
- トレーニングがより簡単に
- より良い結果
- ドキュメンテーション
私はこの問題に慣れていないので、コメントは素晴らしいでしょう
java - マレットHMMトレーニングの問題
私は現在、HMMに関するマレットの途方もなく貧弱なドキュメントに苦労しています。データをインスタンス(ImportExample.javaスニペットから採用)にインポートすることができましたが、HMMモデルのトレーニングにそれらをどのように使用できるのか疑問に思っていました。私は最初にHMMインスタンスを作成することから始めましたが、次のことを行うかどうかがわかりませんでした。
または、同じデータアルファベットを次のように2回使用します。
どちらにせよ
次のエラーが発生します。
cc.mallet.types.FeatureVectorをcc.mallet.types.FeatureVectorSequenceにキャストすることはできません
私はあなたが提供できるどんな助けにも感謝するでしょう。
乾杯
r - MALLET 出力ファイルを再構築してテーブルを作成する方法は?
私はトピック分析にMALLETを使用しています。これは、結果を数千行のテキスト ファイル (「topics.txt」) に出力し、各行が次のようなタブ区切りの変数で構成される 100 ほどの行を出力します。
実際のデータの一部を次に示します。
Rを使用して、この出力をデータ テーブルに変換しようとしています。トピックは列ヘッダーであり、各トピックには、各変数「トピック」の右側に変数「比率」の値が直接含まれています。 '文章'。このような:
または、上記のデータ スニペットを次のように使用します。
これは、友人から送信された、仕事をしなければならないRコードですが、私には機能しません (そして、自分で修正するのに十分な知識がありません)。
このコードを機能させる方法についての提案をいただければ幸いです。私の問題はこれに関連している可能性があり、おそらくこれにも関連している可能性がありますが、これらの質問に対する回答をすぐに利用するスキルはまだありません.
machine-learning - Mallet の Topic Model クラスの出力を理解する方法は?
トピック モデリング デベロッパー ガイドのサンプル コードを試しているので、そのコードの出力の意味を理解したいと思っています。
最初に実行プロセス中に、次のように表示されます。
質問1 : 最初の行の「コード化されたLDA: 10 トピック、4 トピック ビット、1111 トピック マスク」とはどういう意味ですか? 「10のトピック」が何であるかしか知りません。
Question2 : " <10> LL/トークン: -9,24097 <20> LL/トークン: -9,1026 <30> LL/トークン: -8,95386 <40> LL/トークン: - 8,75353」というのは、ギブス サンプリングの指標のようです。でも、単調増加じゃないですか?
その後、次のように出力されます。
この部分の最初の行は、おそらくトークン トピックの割り当てですよね?
Question3 : 最初のトピックについては、
0.008は「トピック分布」と言われていますが、コーパス全体でのこのトピックの分布ですか?次に、競合があるようです。上記のトピック 0 は、そのトークンがコーパスに 8+7+6+4+4+... 回出現します。比較すると、トピック 7 では 4+3+3+3+3... 回がコーパスで認識されます。その結果、トピック 7 はトピック 0 よりも分布が低くなるはずです。これが理解できません。さらに、最後の「0 0.55」は何ですか?
この長い投稿を読んでいただき、誠にありがとうございます。あなたがそれに答えてくれることを願っており、これがマレットに興味のある他の人に役立つことを願っています.
一番
java - マレット:局所Nグラム
オプションを使用してマレットを実行したいのですが、--use-ngrams true
機能しないようです。以下を使用してデータをインポートしました:
今、私は局所的なngramモデルを訓練したいと思います:
しかし、私はこのエラーを受け取ります:
ご覧のとおり、私はマレットをコマンドラインツールとして実行しており、APIをこじ開けて機能させることはしたくありません。助言がありますか?