問題タブ [mallet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
862 参照

stop-words - Mallet - トピック モデリング - ストップワード エラー

トピック モデリングに MALLET を使用する場合、ストップ ワード リストとデフォルト ストップ ワード リストを追加しますが、トピック モデルにいくつかのストップ ワードが表示されます。たとえば、「ın」、「ıf」、「ıt」などです。このストップワードがトピック モデルに表示されないようにするにはどうすればよいですか? 話題のモデルは以下。

0 5 時間 部屋 ドア 家 人 目 モノ 夜 女性 昼 メイク 女の子 顔 母 声 車 帰宅

1 5 ıt ıt ıt ıt ıt ıt ın 実 感 点 経験 命令 形式 人間 行動 共通 一般 宗教 法 一部 変更 数 事件 証拠

2 5 時間 場所 仕事 水 ロング メイク カット ın スクエア ラージ トップ 家 サイド ビルド マシン ビルディング 粘土 ピース デザイン

3 5 学校の人々 ın 開発 国民 アメリカのメンバー 社会プログラム システム 経済グループ 問題 教育 クラス 学生 仕事 ポリシー 子供

4 5 年 ヨーク ウィーク ホーム ミュージック アメリカン シティ ハウス プレジデント デイ スクール クラブ ウィリアム ショー ホワイト イン デイズ ファミリー ナイト

5 5 時間 火 フィート 川 長い 道路 側 マイル ゲーム 土地 実行 ヒット 戦争 銃 大きな ボール 始めた 武器

6 5 手 水 白い手 ın 黒い食べ物 目 顔 ゆっくり 太陽 冷たい ıt 人生 赤い頭 熱い 長い体

7 5 ın 数 システム データ 表面温度 高 低 タイプ ボリューム 情報 材料 圧力 フィード フォーム 小さい 結果 示された方法

8 5 世界 生活 教会 神 戦時 偉大な 死 本 英語 世紀 歴史 イングランド フランス 西 ソビエト 愛 精神

9 5 州 年 連邦政府 一般事業 連邦部門 裁判所 税金 費用 100万 会社 秘書 行為 公務員 サービス業

アドバイスをありがとう

0 投票する
1 に答える
954 参照

java - 単純ベイズ分類にマレットを使用する: アルファベットはどのように、どこで設定されますか?

単語の意味を明確にするために、プロジェクトで MALLET 機械学習ライブラリを使用しようとしています。私の特徴ベクトルは、ターゲット トークンの左右にある x 個のトークンの固定サイズのトークン ウィンドウで構成されています。MALLET トレーニング インスタンスは次のように作成されます。

どこ

  • 「データ」は機能トークンを持つ ArrayList<String> です
  • 「senseID」は、それぞれの語義のクラス ラベルです。
  • 「instanceID」は、トレーニング インスタンスを識別する単なる文字列です。
  • 「テキスト」は元のソーステキストです

InstanceList の dataAlphabet プロパティと targetAlphabet プロパティは、トレーニング インスタンスが追加されるとオンザフライで構築されると予想していましたが、そうではありません。その結果、NB トレーナーの targetAlphabet プロパティが NULL であるため、私のコードは上記の最後の行で NPE で失敗します。

(オープンソースのおかげで) MALLET コードを見ると、Alphabet が構築されていない根本的な原因は、データとラベルが AlphabetCarrying インターフェイスを実装していないことにあることがわかります。したがって、次の Instance クラスでは NULL が返されます。

ドキュメントには、データとラベルは任意のオブジェクト タイプにすることができると記載されているため、これはややこしいと思います。しかし、上記のエラーは逆に、AlphabetCarrying を実装する特定のデータ/ラベル クラスを構築する必要があることを示しているようです。

これらのアルファベットに関して、概念レベルで重要な何かが欠けているように感じます。また、データ アルファベットをすべてのトレーニング インスタンスから派生させる必要があるのか​​、それとも 1 つだけから派生させる必要があるのか​​は明確ではありません。誰かがここでエラーを説明できますか?

乾杯、

マーティン

0 投票する
0 に答える
225 参照

java - 特徴値のペア (Mallet API) からインスタンスを作成するには、どのイテレータを使用すればよいですか?

LDA を実行して、次のような txt ファイルからいくつかのトピックを生成しようとしています。

ドキュメント1 ラベル1 森=3.4 木=5 木=2.85 ハンマー=1 色=1 葉=1.5

Document2 label2 森=10 木=5 木=2.75 ハンマー=1 色=4 葉=1

Document3 label3 森=19 木=0.90 木=2 ハンマー=2 色=9 葉=4.3

ドキュメント4 ラベル4 森=4 木=5 木=10 ハンマー=1 色=6 葉=3

ファイル内の各数値は、各フィーチャ (森林、樹木など) の出現回数に特定のペナルティを掛けたものです。

このようなファイルからインスタンスを生成するには、次の Java コードを使用します。

次に、命令 model.addInstances(generatedInstances) を使用して、そのように生成されたインスタンスをモデルに追加します。結果の出力を以下に示します。これには、命令 model.addInstances(generatedInstances) によって発生したエラーが含まれています。コードをデバッグすると、モデルに関連付けられているアルファベットが null であることがわかりました。間違ったイテレータを使用していますか? コードの修正を手伝ってくれる人はいますか?

前もって感謝します。

0 投票する
2 に答える
662 参照

machine-learning - MalletでcsvIteratorのパラメータは何を意味しますか?

mallet トピック モデリング サンプル コードを使用していますが、正常に動作しますが、このステートメントのパラメーターが実際に何を意味するのか知りたいですか?

0 投票する
1 に答える
1098 参照

java - Mallet の LDA モデルから単語トピック マトリックスを取得する

JavaでMalletを使用してLDAのモデル推定を計算しており、 term-topic-matrixを探しています。

モデルの計算とトピック ドキュメント マトリックスの取得はうまくいきます。

そして今、私は上位n個の単語しか取得できません:

この問題に関する唯一の回答は、Mallet のコマンド ライン バージョンに関するものです。

0 投票する
0 に答える
208 参照

machine-learning - 特定のトピックの単語の確率分布を取得するには?

Mallet を使用してトピック モデリングを行っていますが、特定のトピックの単語の確率分布を取得できないことを除いて、すべて正常に動作します。

ただし、以下のコードを使用して、特定のドキュメントのトピックの割合を出力しています (以下の docID 変数で表されます) - Mallet の特定のトピックの単語分布を取得する同様のコードはありますか?

0 投票する
0 に答える
145 参照

mallet - Mallet における CRF++ と SimpleTagger の機能の違い

Mallet で CRF++ と SimpleTagger の時間パフォーマンスを比較する実験を行っています。ただし、実行後、同じパラメーター (L2-norm) を設定しても、精度に差があることがわかります。私は CRF++ と Mallet から作成された機能を印刷してそれを理解しようとしましたが、Mallet ではそれができません。では、CRF++ と Mallet の機能に違いはありますか? Mallet によって作成されたフィーチャーを印刷するにはどうすればよいですか?

0 投票する
1 に答える
452 参照

topic-modeling - トピック モデリング Java ツールキットの使用

私はテキスト分類に取り組んでおり、トピック モデル (LDA) を使用したいと考えています。私のコーパスは、少なくとも 24,000 のペルシャのニュース文書で構成されています。コーパス内の各ドキュメントは、ニュースから抽出された (キーワード、重み) ペアの形式になっています。

私は 2 つの Java ツールキットを見ました: mallet と lingpipe です。データのインポートに関するマレットのチュートリアルを読みましたが、私が持っている形式ではなく、プレーンテキストでデータを取得します。変更する方法はありますか?

リングパイプについても少し読んでください。チュートリアルの例では、整数の配列を使用していました。大量のデータに便利ですか?

LDA のどの実装が自分に適しているかを知る必要がありますか? 私のデータに合った他の実装はありますか? (ジャワ語で)