問題タブ [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - gensim を使用したトレーニング用コーパスへの LDA の適用
約 20,000 のドキュメントを含むコーパスがあり、LDA を使用してトピック モデリング用にそのデータ セットをトレーニングする必要があります。
このプログラムを実行するたびに、次のエラーが発生します。
関数の値を変更しようとしましたLdaModel
が、常に同じエラーが発生します!
何をすべきですか?
python - gensim を使用してトレーニングされた LDA モデルを使用して、新しいクエリのトピックを予測する方法は?
gensim を使用して LDA トピック モデリング用のコーパスをトレーニングしました。
gensim ウェブサイトのチュートリアル (これはコード全体ではありません):
これは私が得る出力です:
question
最後の出力が、 !!!の可能なトピックを見つけるのにどのように役立つかわかりません。
助けてください!
python - (Gensim) ValueError: 無効な形状、アルファ パラメータ付き
まず、これは LDA が実行されたコーパスのトピック分布を取得する正しい方法ですか?
この問題は、アルファ パラメータを LDA に追加し、次のようにコーパスをスパース マトリックスに変換しようとすると発生します。
gensim コーパスから 3 行目の疎行列への変換中に、エラーが発生します。ValueError: invalid shape
ALPHA パラメータを追加した場合にのみ、この問題が発生します。
完全なトレースバック:
python - PyCharmのGensim ImportError:scipy.sparseという名前のモジュールはありません
私は Mac OS X 10.8.3 (Mountain Lion) を使用しており、PyCharm でスクリプトを実行しようとしています。Python 2.7.2 がインストールされています。Canopy と Gensim をインストールしました。私が得ているエラーの原因が何であるかを理解していません。
v0.11がインストールされていることを示しています。
スクリプトを実行した後の出力全体を次に示します。
python - Pythonでコーパスからワードクラウドを作成するには?
R のコーパスから単語のサブセットを作成することから、回答者はterm-document matrix
a を単語クラウドに簡単に変換できます。
生の単語テキストファイルまたはNLTK
コーパスまたはGensim
Mmcorpus を単語クラウドに取り込む Python ライブラリからの同様の関数はありますか?
結果は次のようになります。
python - Gensim LDA でのドキュメントのトピック配布
次のように、おもちゃのコーパスを使用して LDA トピック モデルを導出しました。
少数のトピックを使用してモデルを導出すると、Gensim は、テスト ドキュメントのすべての潜在的なトピックに関するトピックの分布の完全なレポートを生成することがわかりました。例えば:
ただし、多数のトピックを使用すると、レポートが完全ではなくなります。
あるしきい値 (より具体的には 0.01 であることがわかりました) よりも確率が低いトピックは、出力から省略されているように思えます。
この動作は、審美的な考慮事項によるものでしょうか? また、他のすべてのトピックに対する確率質量残差の分布を取得するにはどうすればよいですか?
親切な回答ありがとうございます!
python - Gensim: LDA モデルの生成されたトピックを読み取り可能な形式 (csv、txt など) に保存する方法は?
コードの最後の部分:
バッシュ出力:
そのため、生成された結果のトピックを読み取り可能な形式で保存できるのではないかと思っています。メソッドを試しました.save()
が、常に判読できないものを出力します。
python - gensimのLDAトピックの単語の完全な分布を出力するには?
次のコードのlda.show_topics
モジュールは、各トピックの上位 10 単語の分布のみを出力します。コーパス内のすべての単語の完全な分布を出力するにはどうすればよいですか?