問題タブ [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Gensim LdaMallet 除算エラー
gensim で Mallet ラッパーのチュートリアルを複製しようとしています。http://radimrehurek.com/2014/03/tutorial-on-mallet-in-python/
モデルをフィットさせると
エラー メッセージが表示されます。
モデルを使用して例のトピック分布を推測すると、分布は均一です。
私の出力:
これはラッパーまたはマレットの機能に問題がありますか? ここでマレットのチュートリアルを複製することができました: http://programminghistorian.org/lessons/topic-modeling-and-mallet
java - MALLET トピック モデリング: 一貫性のない推定
MALLET を使用して ParallelTopicModel をトレーニングしています。トレーニング後、TopicInferencer を取得し、文を取得して、推論器を 15 回実行し、結果を確認します。一部のトピックでは、見積もりが毎回異なり、まったく一貫していないことがわかりました。
たとえば、トピックが 20 の場合、これは、同じ文の推定トピック確率に対して取得している出力です。
ご覧のとおり、いくつかの列は非常に一貫性がありません。これはなぜですか、これを防ぐ方法はありますか? 私はディストリビューションを別の機械学習モデルの機能として使用していますが、これらの不一致により、他のモデルが台無しになっています。
私のコード:
training-data - Mallet API で指定された任意のクラスを含む Mallelt トレーニング データセット
カンマ区切りの値を持つ 15000 語のデータセットがあります。さらにタグを抽出するたびに、訓練されたデータ セットを mallet に保持したまま結果を取得できるように、 mallet を訓練する必要があります。
プログラムを使用してデータをトレーニングするには、いくつかのサンプル コードが必要です。
java - Mallet: 1024GB のメモリ割り当てで java.lang.OutOfMemoryError が発生する
Mallet を使用して、11403956 行の ~1GB のテキスト ファイルでトピック モデリングを実行しようとしています。mallet ディレクトリからcd
、bin
メモリ要件を 1024GB にアップグレードします。
set MALLET_MEMORY=1024G
次に、次のコマンドを実行してみます。
ただし、これによりメモリエラーがスローされます。
このような状況の回避策はありますか? 他の人が提供できるヘルプは大歓迎です!
cluster-analysis - Mallet を使用して LDA に最適な K を評価するにはどうすればよいですか?
私は Mallet api を使用して Twitter データからトピックを抽出していますが、良いトピックと思われるトピックを既に抽出しています。しかし、私はKの推定に問題に直面しています.
たとえば、K 値を 10 から 100 に固定しました。そのため、データから異なる数のトピックを取得しました。しかし、ここで、どの K が最適かを推定したいと思います。私が知っているいくつかのアルゴリズムがあります
- 困惑
- 経験的可能性
- 限界尤度(調和平均法)
- シルエット
K の異なる値で推定するために使用できるメソッド model.estimate() を見つけました。誰かがいくつかのサンプルコードでそれについて考えていますか? ありがとう。
java - マレット トピック モデリング、トピックのラベル付け
単一のドキュメントに記事のコーパスがあり、ユーザーが入力に関連する記事を検索できるようにする検索機能を後で使用するために、MALLET のトピック モデリング アルゴリズムを適用しています。私が使用しているアルゴリズムは、ここにあるトピック モデリング API 開発者ガイドです。
私はトピックモデリングを初めて使用しますが、理解する限り、このトピックに関連する単語を保持するユーザー指定の数のトピックを生成しますが、プログラムはトピックが何であるかを知りません。これはユーザーが手動で指定する必要がありますよね?
私の質問は、後で使用できるようにこれらのトピック名を手動で設定するにはどうすればよいですか? つまり、アルゴリズムからのトピック出力は次のようになります。
ここで、0 はトピックの名前です。私が欲しいのは、名前を次のようなものに手動で変更することです:
何か助けてください。