問題タブ [topic-modeling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
topic-modeling - トピックモデリングとトピックの類似点の発見
問題文: いくつかのドキュメント (20k ドキュメント) があります。トピック モデリングを適用して類似のドキュメントを見つけ、それらの類似のドキュメントを分析して、それらが互いにどのように異なっているかを見つける必要があります。Q: これを達成するためのトピック モデリング パッケージを提案してくれる人はいますか? Mallet と Gensim Python を調べています。どちらが私の要件に最も適しているかわかりません。
どんな助けでも大歓迎です。
python - LDAトピックモデリングにgensimを使用したpython IndexError
別のスレッドに私のものと同様の質問がありますが、再現可能なコードは除外されています。
問題のスクリプトの目標は、できるだけメモリ効率の良いプロセスを作成することです。corpus()
そこで、gensims の機能を利用するクラスを作成しようとしました。ただし、作成時に解決方法がわからない IndexError が発生していlda = models.ldamodel.LdaModel(corpus_tfidf, id2word=checker.dictionary, num_topics=int(options.number_of_topics))
ます。
私が使用しているドキュメントは、gensim チュートリアルで使用したものと同じで、tutorial_example.txt に配置しました。
エラーを受け取りました
以下はgensim_topic_modeling.py
スクリプトです。
結果のtopic-modeling-log
ファイルは次のとおりです。助けてくれてありがとう!
トピックモデリングログ
r - R - LDA トピック モデルの出力データ
「topicmodels」パッケージを使用して、R でいくつかのトピック モデルの構築に取り組んでいます。ドキュメント ターム マトリックスを前処理して作成した後、次の LDA Gibbs モデルを適用します。これは簡単な答えかもしれませんが、私はRの初心者なので、ここに行きます。トピックとターム リストを確率とともにテキスト ファイルまたは Excel ファイルにエクスポートする方法はありますか? Rで(以下のように)印刷できますが、エクスポートする方法がわかりません:(
これは主に、視覚化を行うためのものであり、Excel で実行できると確信していますが、前述のように、私は初心者であり、R で視覚化の手法を学ぶことがあまりありません。これが理にかなっていることを願っています
java - MALLET トピック モデリング: 入力文字列
ファイル .mallet をインポートする次のコードがあります。
しかし、すべてのインスタンスを手動で切り替えたい場合、どうすればよいでしょうか? 私はこれを試しました:
しかし、それは私にエラーを与えます!
編集
私はそれを試してみましたが、文字列の配列で動作するようです:
python - gensim 辞書にトークンを追加する方法
gensimを使用して、ドキュメントのコレクションから辞書を作成します。各ドキュメントはトークンのリストです。これは私のコード
私の質問は、この辞書に新しいドキュメント (トークン) を追加して更新する方法です。gensim ドキュメントを検索しましたが、解決策が見つかりませんでした
java - Mallet Java: ドキュメント コレクションの確率分布を取得する
KL-Divergence を使用できるようにする必要があるため、ドキュメントのコレクションに対して単一の確率分布を取得したいのですが、これは可能ですか?
この例では: http://mallet.cs.umass.edu/topics-devel.php メソッド getTopicProbabilities() を使用して、各インスタンスの確率分布を取得しますが、ドキュメントのコレクションに対して単一の分布を取得したい場合?
これはドキュメントのトピック配布でしょうか?
java - Mallet TopicModel を実行できません
Mallet のトピック モデリングを実行しようとしていますが、次のエラーが発生しました。
私はすでにすべてのjarファイルを追加しました! ここで何が問題なのか教えてください。
ありがとう、