問題タブ [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonで「単語ごと」の構文はどういう意味ですか?
gensim チュートリアル ページから次のスクリプト スニペットが表示されます。
以下のPythonスクリプトの単語ごとの構文は何ですか?
python - トピックの分布: Python で LDA を実行した後、どのドキュメントがどのトピックに属しているかを確認する方法
gensim から LDA コードを実行することができ、それぞれのキーワードでトップ 10 のトピックを取得しました。
ここで、さらに一歩進んで、LDA アルゴがどのドキュメントを各トピックにクラスター化するかを確認することで、LDA アルゴがどれほど正確かを確認したいと思います。これはgensim LDAで可能ですか?
基本的に私はこのようなことをしたいのですが、Pythonでgensimを使用しています。
トピックモデルを使用した LDA で、さまざまなドキュメントがどのトピックに属しているかを確認するにはどうすればよいですか?
python - ドキュメント内の語句の意味論的クラスタリング
意味の類似性に基づいて単語をクラスタリングしたいと考えています。現在、検出された名詞句を含むドキュメントのリストがあります。ドキュメント内のこれらの取得された名詞からクラスターを作成し、教師なしでそれらを意味的にクラスター化したいですか?
wordnet と gensim ライブラリを見てきました。意味的な類似性に基づいて、必要な単語のクラスターを取得するのに本当に役立つものはどれですか?
algorithm - トピックを見つける際の潜在的な意味分析
私は潜在的意味分析 (LSA) を学んでおり、用語文書マトリックスを構築し、その SVD 分解を見つけることができます。その分解からトピックを取得するにはどうすればよいですか?
たとえば、gensim では次のようになります。
python-2.7 - gensim 辞書で 1 回だけ出現するトークンを除外します
gensim ディクショナリ オブジェクトには、設定された量よりも少ないドキュメントに表示されるトークンを削除するための非常に優れたフィルタリング機能があります。ただし、コーパスで 1 回だけ発生するトークンを削除しようとしています。これを行うための迅速かつ簡単な方法を知っている人はいますか?