“lda”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

4316 参照

mahout - mahout 0.8でcvbを実行します

現在の Mahout 0.8-SNAPSHOT には、トピックモデリング用の Collapsed Variational Bayes (cvb) バージョンが含まれており、潜在ディリクレ分析 (lda) アプローチが削除されています。これは、cvb の方が優れた方法で並列化できるためです。残念ながら、例を実行して意味のある出力を生成する方法に関するldaのドキュメントしかありません。

したがって、私はしたい：

一部のテキストを正しく前処理する
cvb の cvb0_local バージョンを実行します
生成された各トピックの上位 n 単語を調べて、結果を調べます

2013-02-07T17:24:09.057

0 投票する

3 に答える

26214 参照

r - トピックモデルを使用した LDA で、さまざまなドキュメントがどのトピックに属しているかを確認するにはどうすればよいですか?

私は topicmodels パッケージの LDA を使用しています。約 30,000 のドキュメントで実行し、30 のトピックを取得し、トピックの上位 10 語を取得しました。非常によく見えます。しかし、どのドキュメントがどのトピックに属しているかを最も高い確率で確認したいのですが、どうすればそれを行うことができますか?

r lda topic-modeling tm

demt

2013-02-14T12:22:32.600

0 投票する

1 に答える

4422 参照

nlp - NLPのストップワードのリスト

he, she, itNLPまたはIR/IE関連のタスクを実行するときに句読点を削除してクラスの単語（など）を閉じるために人々が通常使用するストップワードのリストはありますか？

私は語義の曖昧性解消のためにギブスサンプリングを使用してトピックモデリングを試してきましたが、コーパスに頻繁に現れるという理由だけで、句読点や近いクラスの単語に高い確率を与え続けています。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

nlp information-retrieval lda topic-modeling wsd

2013-02-18T09:46:11.013

0 投票する

10 に答える

41928 参照

python - gensim から LDA トピックモデルを印刷するには? パイソン

を使用しgensimて、LSA の一連のドキュメントからトピックを抽出できましたが、LDA モデルから生成されたトピックにアクセスするにはどうすればよいですか?

lda.print_topics(10)コードを印刷すると、次のエラーが発生print_topics()しましたNoneType。

コード：

python nlp lda topic-modeling gensim

2013-02-22T02:47:42.070

0 投票する

4 に答える

16490 参照

python - LDA モデルは、同じコーパスでトレーニングするたびに異なるトピックを生成します

Pythongensimを使用して、231 文の小さなコーパスから潜在的ディリクレ配分 (LDA) モデルをトレーニングしています。ただし、プロセスを繰り返すたびに、さまざまなトピックが生成されます。

同じ LDA パラメータとコーパスが毎回異なるトピックを生成するのはなぜですか?

また、トピックの生成を安定させるにはどうすればよいですか?

私はこのコーパス（http://pastebin.com/WptkKVF0）とストップワードのリスト（ http://pastebin.com/LL7dqLcj ）を使用しています。これが私のコードです：

python nlp lda topic-modeling gensim

2013-02-25T13:08:28.630

0 投票する

2 に答える

3227 参照

python - LDA 変換されたコーパスをロードするには、どの gensim コーパスクラスを使用すればよいですか? - パイソン

python から LDA 変換されたコーパスを読み込むにはどうすればよいgensimですか? 私が試したこと：

上記のコードは次を出力します。

保存した LDA 変換済みコーパスをロードしたい場合、どのクラスからgensimロードすればよいですか?

を使用してみcorpora.MmCorpus.load()ましたが、上記と同じ変換されたコーパスの出力が得られません。

python nlp corpus lda gensim

2013-03-03T10:20:55.593

0 投票する

1 に答える

363 参照

mahout - mahout-distribution-0.7 の jar ファイルを使用して lda を実行する方法

mahout-integration-0.7.jar、mahout-math-0.7.jar、mahout-core-0.7.jar、mahout-core-0.7-job.jar、mahout-examples-0.7.jar、およびmahout-examples-0.7-job.jar. 最初に宣言する必要があるものとその引数など、特定のjarファイルを呼び出してLDAを実行するにはどうすればよいですか?

私はインターネットで例を検索しましたが、それらのほとんど

しかし、これらの jar ファイルにはそのような lda.class ファイルはありません。これらのjarファイルを利用する場合、LDAを実行するにはどうすればよいですか。

mahout lda

2013-03-10T07:05:08.493

0 投票する

1 に答える

2430 参照

r - R の関数 topicmodels::lda のエラー

R の topicmodels パッケージの LDA モデルを使用しようとしています。メソッドの不安定性を測定する必要があるため、w = 3000 単語、t = 8 トピック、d = 50 ドキュメントのディリクレ分布から真のパラメータを生成しました。各自：

したがって、私のドキュメントの行列は疎行列 d * w であり、ほとんどすべての要素が 0 または 1 です。

次に、docs マトリックスを documentTermMatrix クラスのオブジェクトにして、topicmodels:lda() で使用する必要があります。

Gibbs サンプリング法を使用する必要があるため、次のように記述します。

そして、私は得る：

lda.default(docs, t, method = "Gibbs") のエラー: nrow(x) と length(grouping) が異なります

この topicmodels パッケージは MASS パッケージを使用していると思いますが、このグループ化パラメーターは明示的に制御できないものですよね? または、データの何が間違っていますか?

私を助けてください！

BR、マリア

r lda topic-modeling

2013-03-15T10:19:25.743

0 投票する

2 に答える

629 参照

lda - 動的トピックモデルの出力 - Bei 形式

Blei によって開発された Dynamic Topic Models パッケージを使用しています。私はLDAを初めて使用しますが、理解しています。

lda-seq/topic-000-var-obs.dat店名で何を出力するのか知りたいです。

lda-seq/topic-001-var-e-log-prob.datが変分事後確率の対数を格納していることを知っており、それに指数関数を適用することで、トピック 001 内の単語の確率を取得します。

ありがとう

lda topic-modeling

2013-03-27T21:55:30.333

0 投票する

1 に答える

1787 参照

python - csr_matrixでgensimコーパス変数をどのように初期化しますか?

私は、scikit の tfidf ベクトライザーを使用して取得した csr_matrix として X と、配列である y を持っています。

私の計画は LDA を使用して機能を作成することですが、X を csr_matrix として使用して gensim のコーパス変数を初期化する方法を見つけることができませんでした。つまり、大量のメモリを消費し、コンピューターがハングする可能性があるため、gensim のドキュメントに示されているようにコーパスをダウンロードしたり、X を密行列に変換したりしたくありません。

要するに、私の質問は次のとおりです。

コーパス全体を表す csr_matrix (スパース) がある場合、gensim コーパスをどのように初期化しますか?
LDA をどのように使用して特徴を抽出しますか?

python scikit-learn document-classification lda gensim

2013-03-27T22:12:52.193

問題タブ [lda]

Reference