問題タブ [topic-modeling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cluster-analysis - トピックモデリングとドキュメントクラスタリングの関係は何ですか?
トピックモデリングは、ドキュメントコレクション内のトピックの分布を識別し、コレクション内のクラスターを効果的に識別します。それで、トピックモデリングはドキュメントクラスタリングを行うための技術であると言うのは正しいですか?
lda - 動的トピック モデルの出力 - Bei 形式
Blei によって開発された Dynamic Topic Models パッケージを使用しています。私はLDAを初めて使用しますが、理解しています。
lda-seq/topic-000-var-obs.dat
店名で何を出力するのか知りたい
です。
lda-seq/topic-001-var-e-log-prob.dat
が変分事後確率の対数を格納していることを知っており、それに指数関数を適用することで、トピック 001 内の単語の確率を取得します。
ありがとう
r - 新しいデータの LDA トピックの予測
この質問は以前に数回 (ここ とここで) 尋ねられたようですが、まだ回答がありません。コメントで示されているように、これは質問の以前のあいまいさが原因であることを願っています。もう一度同様の質問をしてプロトコルを破っている場合は申し訳ありませんが、それらの質問には新しい回答が表示されないだろうと思っていました.
とにかく、私は潜在的ディリクレ割り当てを初めて使用し、テキストデータの次元削減の手段としての使用を検討しています。最終的には、非常に大きな単語の袋から小さなトピックのセットを抽出し、それらのトピックをモデルのいくつかの変数として使用して分類モデルを構築したいと考えています。トレーニング セットで LDA を実行することに成功しましたが、問題は、同じトピックのどれが他のテスト データ セットに現れるかを予測できることです。私は現在 R の topicmodels パッケージを使用していますが、他のパッケージを使用して別の方法がある場合は、それも受け入れます。
これが私がやろうとしていることの例です:
python - gensim を使用したトレーニング用コーパスへの LDA の適用
約 20,000 のドキュメントを含むコーパスがあり、LDA を使用してトピック モデリング用にそのデータ セットをトレーニングする必要があります。
このプログラムを実行するたびに、次のエラーが発生します。
関数の値を変更しようとしましたLdaModel
が、常に同じエラーが発生します!
何をすべきですか?
python - gensim を使用してトレーニングされた LDA モデルを使用して、新しいクエリのトピックを予測する方法は?
gensim を使用して LDA トピック モデリング用のコーパスをトレーニングしました。
gensim ウェブサイトのチュートリアル (これはコード全体ではありません):
これは私が得る出力です:
question
最後の出力が、 !!!の可能なトピックを見つけるのにどのように役立つかわかりません。
助けてください!
r - トピックモデルを使用するために DocumentTermMatrix から単語を削除しようとしています
topicmodels
そのため、パッケージを使用しようとしていますR
(それぞれが 1000 単語である ~6400 のドキュメントのコーパスで 100 のトピック)。プロセスが実行されてから終了します。メモリが不足しているためだと思います。
lda()
そこで、関数が入力として受け取るドキュメント ターム マトリックスのサイズを縮小しようとしました。minDocFreq
ドキュメント用語マトリックスを生成するときに、関数を使用してそれを行うことができると思います。でも使ってみると、特に違和感はありません。ここにいくつかのコードがあります:
関連するコードは次のとおりです。
同じ次元、同じ列数 (つまり、同じ数の項)。
私が間違っていることは何ですか?ありがとう。
r - R トピック モデリング: lda モデルのラベル付け機能
LDA を使用して、A と B という 2 つのテキスト ドキュメントのトピック モデルを構築しました。ドキュメント A はコンピューター サイエンスとの関連性が高く、ドキュメント B は地球科学との関連性が高いと言えます。次に、次のコマンドを使用してldaをトレーニングしました:
my_lda を使用して、C などの新しいドキュメントのコンテキストを予測し、それがコンピューター サイエンスまたは地球科学に関連しているかどうかを確認したいと考えています。このコードを予測に使用するかどうかはわかっています
ラベル 1 または 2 が付けられますが、1 または 2 が何を表しているのかわかりません... それがコンピューター サイエンス関連または地球科学関連を意味する場合、どうすればわかりますか?
mahout - mahout 0.7 での cvb の出力
Hadoop 1.0.4 で Mahout 0.7 を実行しています。トピック モデリング タスクの Reuters データセットの結果を確認したいと考えています。ただし、Mahout で vectordump ツールを使用すると、ちょっと役に立たない結果が得られます。この例の次の一連の手順を読みました:
Run cvb in mahout 0.8。
しかし、vectordump ツールを実行した後、出力に次のような行を含む巨大なファイルが表示されます: {0.01:5.726429339702471E-12,0.05:6.196569958376538E-9,...}ロイター データセットの実際の出力です。
topic-modeling - トピックのモデル化ですが、既知のトピックはありますか?
さて、通常はトピック モデル (LDA、pLSI など) を使用して、一連のドキュメントに存在する可能性のあるトピックを教師なしで推測します。LDAの問題を解決するために利用できる非常に優れたツールがあるので、私の問題をLDAフレームワークに押し込む方法について誰かがアイデアを持っているかどうか知りたい.
徹底するために、入力として次の情報を用意しています。
- ドキュメントのセット (各セグメントがドキュメントである、1 つの生物からの DNA のセグメント)
- このシナリオでは、ドキュメントは 1 つのトピックのみを持つことができます
- 一連のトピック (他の生物の DNA のセグメント)
- この場合の単語は、塩基のトリプレットです (今のところ)
私が答えたい質問は次のとおりです。現在のドキュメントのトピックは何ですか? 言い換えれば、与えられた DNA セグメントについて、それが最も可能性が高い他の生物 (同じ種) は? セグメントの交換が発生してから突然変異などがあった可能性があるため、2 つのセグメントは同一ではありません。
これと従来の LDA モデルの主な違いは、事前にトピックを知っていることです。
私の最初のアイデアは、pLSA モデル ( http://en.wikipedia.org/wiki/PLSA ) を使用し、トピック ノードを明示的に設定してから、標準の EM 学習を実行することでした (ベイジアン パラメーターを処理できるまともなライブラリがあれば)潜在変数を使用した学習...)、その後、任意のアルゴリズムを使用した推論が続きます (モデルはポリツリーであるため、これは重要ではありません)。
編集:これに出くわす可能性のある人のために、私はそれを解決したと思います。ラベル付き LDA を使用して、すべてのラベルをすべてのドキュメントに割り当てることができることがわかりました。各ラベルはトピックと 1 対 1 で対応しているため、アルゴリズムに対して事実上、「ドキュメントごとに、独自のトピックを作成するのではなく、この与えられた一連のトピック (ラベル セット) からトピックを選択する」ということを伝えていることになります。