問題タブ [lda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
4316 参照

mahout - mahout 0.8でcvbを実行します

現在の Mahout 0.8-SNAPSHOT には、トピック モデリング用の Collapsed Variational Bayes (cvb) バージョンが含まれており、潜在ディリクレ分析 (lda) アプローチが削除されています。これは、cvb の方が優れた方法で並列化できるためです。残念ながら、例を実行して意味のある出力を生成する方法に関するldaのドキュメントしかありません。

したがって、私はしたい:

  • 一部のテキストを正しく前処理する
  • cvb の cvb0_local バージョンを実行します
  • 生成された各トピックの上位 n 単語を調べて、結果を調べます
0 投票する
3 に答える
26214 参照

r - トピックモデルを使用した LDA で、さまざまなドキュメントがどのトピックに属しているかを確認するにはどうすればよいですか?

私は topicmodels パッケージの LDA を使用しています。約 30,000 のドキュメントで実行し、30 のトピックを取得し、トピックの上位 10 語を取得しました。非常によく見えます。しかし、どのドキュメントがどのトピックに属しているかを最も高い確率で確認したいのですが、どうすればそれを行うことができますか?

0 投票する
1 に答える
4422 参照

nlp - NLPのストップワードのリスト

he, she, itNLPまたはIR/IE関連のタスクを実行するときに句読点を削除してクラスの単語(など)を閉じるために人々が通常使用するストップワードのリストはありますか?

私は語義の曖昧性解消のためにギブスサンプリングを使用してトピックモデリングを試してきましたが、コーパスに頻繁に現れるという理由だけで、句読点や近いクラスの単語に高い確率を与え続けています。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

0 投票する
10 に答える
41928 参照

python - gensim から LDA トピック モデルを印刷するには? パイソン

を使用しgensimて、LSA の一連のドキュメントからトピックを抽出できましたが、LDA モデルから生成されたトピックにアクセスするにはどうすればよいですか?

lda.print_topics(10)コードを印刷すると、次のエラーが発生print_topics()しましたNoneType

コード:

0 投票する
4 に答える
16490 参照

python - LDA モデルは、同じコーパスでトレーニングするたびに異なるトピックを生成します

Pythongensimを使用して、231 文の小さなコーパスから潜在的ディリクレ配分 (LDA) モデルをトレーニングしています。ただし、プロセスを繰り返すたびに、さまざまなトピックが生成されます。

同じ LDA パラメータとコーパスが毎回異なるトピックを生成するのはなぜですか?

また、トピックの生成を安定させるにはどうすればよいですか?

私はこのコーパス(http://pastebin.com/WptkKVF0)とストップワードのリスト( http://pastebin.com/LL7dqLcj )を使用しています。これが私のコードです:

0 投票する
2 に答える
3227 参照

python - LDA 変換されたコーパスをロードするには、どの gensim コーパス クラスを使用すればよいですか? - パイソン

python から LDA 変換されたコーパスを読み込むにはどうすればよいgensimですか? 私が試したこと:

上記のコードは次を出力します。

保存した LDA 変換済みコーパスをロードしたい場合、どのクラスからgensimロードすればよいですか?

を使用してみcorpora.MmCorpus.load()ましたが、上記と同じ変換されたコーパスの出力が得られません。

0 投票する
1 に答える
363 参照

mahout - mahout-distribution-0.7 の jar ファイルを使用して lda を実行する方法

mahout-integration-0.7.jar、mahout-math-0.7.jar、mahout-core-0.7.jar、mahout-core-0.7-job.jar、mahout-examples-0.7.jar、およびmahout-examples-0.7-job.jar. 最初に宣言する必要があるものとその引数など、特定のjarファイルを呼び出してLDAを実行するにはどうすればよいですか?

私はインターネットで例を検索しましたが、それらのほとんど

しかし、これらの jar ファイルにはそのような lda.class ファイルはありません。これらのjarファイルを利用する場合、LDAを実行するにはどうすればよいですか。

0 投票する
1 に答える
2430 参照

r - R の関数 topicmodels::lda のエラー

R の topicmodels パッケージの LDA モデルを使用しようとしています。メソッドの不安定性を測定する必要があるため、w = 3000 単語、t = 8 トピック、d = 50 ドキュメントのディリクレ分布から真のパラメータを生成しました。各自:

したがって、私のドキュメントの行列は疎行列 d * w であり、ほとんどすべての要素が 0 または 1 です。

次に、docs マトリックスを documentTermMatrix クラスのオブジェクトにして、topicmodels:lda() で使用する必要があります。

Gibbs サンプリング法を使用する必要があるため、次のように記述します。

そして、私は得る:

lda.default(docs, t, method = "Gibbs") のエラー: nrow(x) と length(grouping) が異なります

この topicmodels パッケージは MASS パッケージを使用していると思いますが、このグループ化パラメーターは明示的に制御できないものですよね? または、データの何が間違っていますか?

私を助けてください!

BR、マリア

0 投票する
2 に答える
629 参照

lda - 動的トピック モデルの出力 - Bei 形式

Blei によって開発された Dynamic Topic Models パッケージを使用しています。私はLDAを初めて使用しますが、理解しています。

lda-seq/topic-000-var-obs.dat店名で何を出力するのか知りたい です。

lda-seq/topic-001-var-e-log-prob.datが変分事後確率の対数を格納していることを知っており、それに指数関数を適用することで、トピック 001 内の単語の確率を取得します。

ありがとう

0 投票する
1 に答える
1787 参照

python - csr_matrixでgensimコーパス変数をどのように初期化しますか?

私は、scikit の tfidf ベクトライザーを使用して取得した csr_matrix として X と、配列である y を持っています。

私の計画は LDA を使用して機能を作成することですが、X を csr_matrix として使用して gensim のコーパス変数を初期化する方法を見つけることができませんでした。つまり、大量のメモリを消費し、コンピューターがハングする可能性があるため、gensim のドキュメントに示されているようにコーパスをダウンロードしたり、X を密行列に変換したりしたくありません。

要するに、私の質問は次のとおりです。

  1. コーパス全体を表す csr_matrix (スパース) がある場合、gensim コーパスをどのように初期化しますか?
  2. LDA をどのように使用して特徴を抽出しますか?