問題タブ [gensim]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
3704 参照

python - gensimのLDAモデルでトピック番号を取得するにはどうすればよいですか

text_corpus で gensim を使用して LDA モデルをトレーニングしました。

新しいテキスト ドキュメント text_sparse_vector を推論する必要がある場合は、私がしなければなりません

しかし、対応する各トピックの単語分布を取得するにはどうすればよいですか。たとえば、トピック番号 16 の上位 20 語を知るにはどうすればよいですか?

クラスgensim.models.ldamodel.LdaModelにはshow_topics(topics = 10、topn = 10、log = False、formatted = True)というメソッドがありますが、ドキュメントに記載されているように、ランダムに選択されたトピックのリストが表示されます。

リンクまたは印刷する方法はありますか? 推測されたトピック番号を単語分布にマップできますか?

0 投票する
2 に答える
918 参照

python - gensim が tf-idf モデルの辞書を作成するときにステミングは使用されますか?

Gensim python ツールキットを使用して、ドキュメントの tf-idf モデルを構築しています。そのため、最初にすべてのドキュメントの辞書を作成する必要があります。しかし、Gensim は辞書とコーパスを作成する前にステミングを使用していないことがわかりました。私は正しいですか?

0 投票する
1 に答える
508 参照

python - gensim で tf-idf モデルがどのように実装されているかについての少しの混乱

私は tf-idf モデルに取り組んでいます。このモデルがどのように実装されているかについて、私はほとんど混乱していません。同じ用語に対して異なる値を与えているモデルを印刷しようとしているときに、モデルを構築しました。次の 2 つの項については、これらの結果が得られます。

結果は次のとおりです。

用語0のtf-idf値がval1で0.5648、val2で1.0である理由を知りたいだけです。

0 投票する
10 に答える
41928 参照

python - gensim から LDA トピック モデルを印刷するには? パイソン

を使用しgensimて、LSA の一連のドキュメントからトピックを抽出できましたが、LDA モデルから生成されたトピックにアクセスするにはどうすればよいですか?

lda.print_topics(10)コードを印刷すると、次のエラーが発生print_topics()しましたNoneType

コード:

0 投票する
1 に答える
2087 参照

python - コーパスを変換した後、 `gensim`のtf-idfモデルが用語とカウントを破棄したのはなぜですか?

gensimコーパスを変換した後、tf-idfモデルが用語とカウントを破棄したのはなぜですか?

私のコード:

出力:

0 投票する
4 に答える
16490 参照

python - LDA モデルは、同じコーパスでトレーニングするたびに異なるトピックを生成します

Pythongensimを使用して、231 文の小さなコーパスから潜在的ディリクレ配分 (LDA) モデルをトレーニングしています。ただし、プロセスを繰り返すたびに、さまざまなトピックが生成されます。

同じ LDA パラメータとコーパスが毎回異なるトピックを生成するのはなぜですか?

また、トピックの生成を安定させるにはどうすればよいですか?

私はこのコーパス(http://pastebin.com/WptkKVF0)とストップワードのリスト( http://pastebin.com/LL7dqLcj )を使用しています。これが私のコードです:

0 投票する
2 に答える
3227 参照

python - LDA 変換されたコーパスをロードするには、どの gensim コーパス クラスを使用すればよいですか? - パイソン

python から LDA 変換されたコーパスを読み込むにはどうすればよいgensimですか? 私が試したこと:

上記のコードは次を出力します。

保存した LDA 変換済みコーパスをロードしたい場合、どのクラスからgensimロードすればよいですか?

を使用してみcorpora.MmCorpus.load()ましたが、上記と同じ変換されたコーパスの出力が得られません。

0 投票する
2 に答える
951 参照

python - Gensim トピックの印刷エラー/問題

全て、

これは、このスレッドで回答した内容の再投稿です。gensim で LSI トピックを印刷しようとすると、まったくおかしな結果が得られます。これが私のコードです:

これにより、以下がコンソールに出力されます。

@2er0 がここで行ったようにトピックを印刷できるようにしたいのですが、このような結果が得られています。以下を参照してください。出力された 2 番目の項目はタプルであり、どこから来たのかわからないことに注意してください。data.txt は、いくつかの段落を含むテキスト ファイルです。それだけです。

これについての考えは素晴らしいでしょう!アダム

0 投票する
1 に答える
1787 参照

python - csr_matrixでgensimコーパス変数をどのように初期化しますか?

私は、scikit の tfidf ベクトライザーを使用して取得した csr_matrix として X と、配列である y を持っています。

私の計画は LDA を使用して機能を作成することですが、X を csr_matrix として使用して gensim のコーパス変数を初期化する方法を見つけることができませんでした。つまり、大量のメモリを消費し、コンピューターがハングする可能性があるため、gensim のドキュメントに示されているようにコーパスをダウンロードしたり、X を密行列に変換したりしたくありません。

要するに、私の質問は次のとおりです。

  1. コーパス全体を表す csr_matrix (スパース) がある場合、gensim コーパスをどのように初期化しますか?
  2. LDA をどのように使用して特徴を抽出しますか?