問題タブ [lda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mahout - mahout 0.8でcvbを実行します
現在の Mahout 0.8-SNAPSHOT には、トピック モデリング用の Collapsed Variational Bayes (cvb) バージョンが含まれており、潜在ディリクレ分析 (lda) アプローチが削除されています。これは、cvb の方が優れた方法で並列化できるためです。残念ながら、例を実行して意味のある出力を生成する方法に関するldaのドキュメントしかありません。
したがって、私はしたい:
- 一部のテキストを正しく前処理する
- cvb の cvb0_local バージョンを実行します
- 生成された各トピックの上位 n 単語を調べて、結果を調べます
r - トピックモデルを使用した LDA で、さまざまなドキュメントがどのトピックに属しているかを確認するにはどうすればよいですか?
私は topicmodels パッケージの LDA を使用しています。約 30,000 のドキュメントで実行し、30 のトピックを取得し、トピックの上位 10 語を取得しました。非常によく見えます。しかし、どのドキュメントがどのトピックに属しているかを最も高い確率で確認したいのですが、どうすればそれを行うことができますか?
nlp - NLPのストップワードのリスト
he, she, it
NLPまたはIR/IE関連のタスクを実行するときに句読点を削除してクラスの単語(など)を閉じるために人々が通常使用するストップワードのリストはありますか?
私は語義の曖昧性解消のためにギブスサンプリングを使用してトピックモデリングを試してきましたが、コーパスに頻繁に現れるという理由だけで、句読点や近いクラスの単語に高い確率を与え続けています。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py
python - gensim から LDA トピック モデルを印刷するには? パイソン
を使用しgensim
て、LSA の一連のドキュメントからトピックを抽出できましたが、LDA モデルから生成されたトピックにアクセスするにはどうすればよいですか?
lda.print_topics(10)
コードを印刷すると、次のエラーが発生print_topics()
しましたNoneType
。
コード:
python - LDA モデルは、同じコーパスでトレーニングするたびに異なるトピックを生成します
Pythongensim
を使用して、231 文の小さなコーパスから潜在的ディリクレ配分 (LDA) モデルをトレーニングしています。ただし、プロセスを繰り返すたびに、さまざまなトピックが生成されます。
同じ LDA パラメータとコーパスが毎回異なるトピックを生成するのはなぜですか?
また、トピックの生成を安定させるにはどうすればよいですか?
私はこのコーパス(http://pastebin.com/WptkKVF0)とストップワードのリスト( http://pastebin.com/LL7dqLcj )を使用しています。これが私のコードです:
python - LDA 変換されたコーパスをロードするには、どの gensim コーパス クラスを使用すればよいですか? - パイソン
python から LDA 変換されたコーパスを読み込むにはどうすればよいgensim
ですか? 私が試したこと:
上記のコードは次を出力します。
保存した LDA 変換済みコーパスをロードしたい場合、どのクラスからgensim
ロードすればよいですか?
を使用してみcorpora.MmCorpus.load()
ましたが、上記と同じ変換されたコーパスの出力が得られません。
mahout - mahout-distribution-0.7 の jar ファイルを使用して lda を実行する方法
mahout-integration-0.7.jar、mahout-math-0.7.jar、mahout-core-0.7.jar、mahout-core-0.7-job.jar、mahout-examples-0.7.jar、およびmahout-examples-0.7-job.jar. 最初に宣言する必要があるものとその引数など、特定のjarファイルを呼び出してLDAを実行するにはどうすればよいですか?
私はインターネットで例を検索しましたが、それらのほとんど
しかし、これらの jar ファイルにはそのような lda.class ファイルはありません。これらのjarファイルを利用する場合、LDAを実行するにはどうすればよいですか。
r - R の関数 topicmodels::lda のエラー
R の topicmodels パッケージの LDA モデルを使用しようとしています。メソッドの不安定性を測定する必要があるため、w = 3000 単語、t = 8 トピック、d = 50 ドキュメントのディリクレ分布から真のパラメータを生成しました。各自:
したがって、私のドキュメントの行列は疎行列 d * w であり、ほとんどすべての要素が 0 または 1 です。
次に、docs マトリックスを documentTermMatrix クラスのオブジェクトにして、topicmodels:lda() で使用する必要があります。
Gibbs サンプリング法を使用する必要があるため、次のように記述します。
そして、私は得る:
lda.default(docs, t, method = "Gibbs") のエラー: nrow(x) と length(grouping) が異なります
この topicmodels パッケージは MASS パッケージを使用していると思いますが、このグループ化パラメーターは明示的に制御できないものですよね? または、データの何が間違っていますか?
私を助けてください!
BR、マリア
lda - 動的トピック モデルの出力 - Bei 形式
Blei によって開発された Dynamic Topic Models パッケージを使用しています。私はLDAを初めて使用しますが、理解しています。
lda-seq/topic-000-var-obs.dat
店名で何を出力するのか知りたい
です。
lda-seq/topic-001-var-e-log-prob.dat
が変分事後確率の対数を格納していることを知っており、それに指数関数を適用することで、トピック 001 内の単語の確率を取得します。
ありがとう
python - csr_matrixでgensimコーパス変数をどのように初期化しますか?
私は、scikit の tfidf ベクトライザーを使用して取得した csr_matrix として X と、配列である y を持っています。
私の計画は LDA を使用して機能を作成することですが、X を csr_matrix として使用して gensim のコーパス変数を初期化する方法を見つけることができませんでした。つまり、大量のメモリを消費し、コンピューターがハングする可能性があるため、gensim のドキュメントに示されているようにコーパスをダウンロードしたり、X を密行列に変換したりしたくありません。
要するに、私の質問は次のとおりです。
- コーパス全体を表す csr_matrix (スパース) がある場合、gensim コーパスをどのように初期化しますか?
- LDA をどのように使用して特徴を抽出しますか?