問題タブ [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
gensim - gensim word2vec モデルの更新
98892 個のドキュメントでトレーニングされた gensim の word2vec モデルがあります。文の配列 (つまり、モデルをトレーニングしたセット) に存在しない特定の文については、その文でモデルを更新して、次回のクエリで何らかの結果が得られるようにする必要があります。私はこのようにやっています:
そして、これをログとして出力します:
さて、ほとんどのポジティブ( as )に対して同様の new_sentence を使用してクエリを実行すると、model.most_similar(positive=new_sentence)
エラーが発生します。
「寒い」という言葉は、私がそのことを訓練した語彙の一部ではないことを示しています (私は正しいですか)?
問題は次のとおりです: モデルを更新して、指定された新しい文のすべての可能な類似点を与えるにはどうすればよいでしょうか?
lda - gensim lda モデル - 目に見えない単語を含むコーパスの更新を呼び出す
gensim's lda
モデルを使用しようとしています。特定のコーパスで LDA モデルを作成し、最初のコーパスにない単語を含む新しいコーパスで更新したい場合、どうすればよいですか? を呼び出そうとするとlda_model.update(new_corpus)
、次のエラーが発生します。
わずか 57 語で構成されるコーパスを使用して lda_model を初期化したため、サイズが制限されていることがわかります57
。次に、さらに多くの単語のコーパスを使用して更新を呼び出したかったのですが、これは失敗します。
どうすればこれを回避できますか? 新しい単語を含む新しいコーパスで自分の LDA モデルを更新できるようにしたいのですが、これは可能ですか?
python - ドキュメントの類似性 Gensim
同じ 10,000 個のドキュメント セットから 10,000 個のドキュメントのリストに関連するドキュメントを取得しようとしています。テストには、gensim lsi と gensim similarity の 2 つのアルゴリズムを使用しています。どちらもひどい結果をもたらします。どうすれば改善できますか?
python - Python と NLTK および GenSim
こんにちは、GenSim コミュニティです。私は Python 2.7.5 と Sublime Text 2 を使用しています。Gensim をインストールする必要があります。Enthought を試しましたが、NLTK をサポートしていません。GenSim を Sublime Text 2 にインポートする必要があります。すべてのコマンド ライン手順を試しましたが、成功しませんでした。ST2でGenSimを入手する方法を教えてください。私はすでに Scipy と Numpy をインストールしています。Radim Rehurek Web ページ、easy_install、pip install などの手順に従ってみました。
python - Genism の Html ドキュメントの LDA
gensim で LDA アルゴリズムを適用する必要がある 10 ~ 15 の html ドキュメントがたくさんあります。サイトの例は、ウィキペディアの圧縮ファイル .xml.bz でのそれらの作成を示しています
大量のHTMLドキュメントにLDAを適用する方法を教えてください。前もって感謝します
python - Python Gensim:LDAモデルを使用してドキュメントの類似性を計算する方法は?
トレーニング済みの LDA モデルがあり、モデルをトレーニングしたコーパスから 2 つのドキュメント間の類似性スコアを計算したいと考えています。Gensim のすべてのチュートリアルと関数を調べた後でも、まだ理解できません。誰かが私にヒントを与えることができますか?ありがとう!
python - できればGensimを拡張する、動的トピックモデル用の効率的なpythonライブラリはありますか?
トピック モデルで Twitter ストリーム データをモデル化しようとしています。使いやすいソリューションである Gensim は、そのシンプルさが印象的です。LSI の真のオンライン実装がありますが、LDA の実装はありません。Twitter のような変化するコンテンツ ストリームの場合、動的トピック モデルは理想的です。この目的で Gensim を利用できる方法、またはハック - 実装または戦略さえありますか?
Gensimまたは独立したものから(できれば)派生する他のpython実装はありますか?早く始めたいのでpythonの方がいいのですが、何か工夫して最適解があれば教えてください。
ありがとう。
gensim - HDP に関する特定のトピックを取得する方法
lda[doc] でドキュメントのトピックを取得したら、lda.print_topic(topic_id) を使用して各トピックを印刷できます。
HdpModel のトピックを取得する同等の方法は何ですか?
私が考えることができる 1 つの方法は、hdp_to_lda を使用して LdaModel を作成することです。もっと簡単な方法はありますか?