問題タブ [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - gensim.LdaMallet 実装時のエラー
このリンク (" http://radimrehurek.com/2014/03/tutorial-on-mallet-in-python/ ")の指示に従っていましたが、モデルをトレーニングしようとするとエラーが発生しました。
あなたの考えを共有してください。
ありがとう。
python - gensim 辞書にトークンを追加する方法
gensimを使用して、ドキュメントのコレクションから辞書を作成します。各ドキュメントはトークンのリストです。これは私のコード
私の質問は、この辞書に新しいドキュメント (トークン) を追加して更新する方法です。gensim ドキュメントを検索しましたが、解決策が見つかりませんでした
python - Python-リスト内包表記で同時に開いたテキストファイルの束を閉じる
私はgensimでLDAモデルに取り組んでいます。このために、私は基本的にテキスト ファイルを開き、辞書を作成してから、モデルを実行しています。
ファイルを開くには、これを使用します:
ここで、sample_list はファイルへのパスのリストです。テキストが別の言語であるため、codecs.open を使用する必要があります (そして、Python を更新していません)。
私の問題は、それらを使用した後にすべてのファイルを閉じる方法がわからないことです。何か案は?私はいくつかのことを試しました。次の手順が次のとおりであるため、ここでは通常のループを使用できません。
5,000 を超えるファイルを使用すると、「IOError: [Errno 24] 開いているファイルが多すぎます」というエラーが表示されます。また、ファイルを開いたままにしておくのは悪いことです。ありがとうございました!
python - gensim からトピックの階層を取得する
gensim はトピックの階層を教えてくれますか? いくつかのドキュメントのトピックを計算するコードを書きます。出力は各トピックの単語です。しかし、トピックの階層が必要です。これは私のコードです:
https://gist.github.com/anonymous/2e3b2f3866e5029c55c3
これが出力されます:
トピックの階層を取得する方法はありますか?
python - LDA gensim の実装、2 つの異なるドキュメント間の距離
編集:ここで興味深い問題を見つけました。このリンクは、gensim がトレーニングと推論の両方のステップでランダム性を使用することを示しています。したがって、ここで提案されているのは、毎回同じ結果を得るために固定シードを設定することです。しかし、なぜすべてのトピックで同じ確率が得られるのでしょうか?
私がやりたいことは、すべての Twitter ユーザーについて彼女のトピックを見つけ、トピックの類似性に基づいて Twitter ユーザー間の類似性を計算することです。gensim ですべてのユーザーに対して同じトピックを計算する可能性はありますか、それともトピックの辞書を計算し、すべてのユーザー トピックをクラスター化する必要がありますか?
一般に、gensim のトピック モデル抽出に基づいて 2 人の Twitter ユーザーを比較する最良の方法はどれですか? 私のコードは次のとおりです。
ユーザー コーパスの返されるトピック確率 (コーパスとしてユーザー ワードのリストを使用する場合):
ユーザーのツイートのリストを使用する場合、すべてのツイートについて計算されたトピックが返されます。
質問 2: 複数の Twitter ユーザーを使用して LDA モデルをトレーニングし、以前に計算された LDA モデルを使用して、すべてのユーザー (すべてのユーザー コーパス) のトピックを計算することは理にかなっていますか?
提供された例でlist[0]
は、等しい確率 0.1 のトピック分布を返します。基本的に、テキストの各行は異なるツイートに対応しています。コーパスを計算するcorpus = [dictionary.doc2bow(text) for text in texts]
と、すべてのツイートの確率が個別に得られます。一方、corpus = [dictionary.doc2bow(words)]
例のように使用すると、すべてのユーザー ワードだけがコーパスになります。2 番目のケースでは、gensim はすべてのトピックに対して同じ確率を返します。したがって、両方のユーザーに対して、同じトピックの配布を取得しています。
ユーザーのテキスト コーパスは、単語のリストにするか、文章のリスト (ツイートのリスト) にするか?
264 ページのtwitterRank アプローチでの Qi He と Jianshu Weng の実装に関して、次のように述べられています。したがって、各ドキュメントは Twitterer に対応します。ドキュメントがすべてユーザーのツイートになる場合、コーパスには何を含める必要がありますか?
topic-modeling - 潜在的セマンティック インデックス作成トピックの数
gensim のパッケージを使用してコーパスに LSI を実装しています。私の目標は、コーパスに表示される最も頻繁に発生する個別のトピックを見つけることです。
コーパスに含まれるトピックの数がわからない場合 (5 から 20 と推定します)、LSI が検索するトピックの数を設定する最善の方法は何ですか? 多数のトピック (20 ~ 30) を探すのと、少数のトピック (~5) を探すのとではどちらが良いですか?
python - django manage.py runserver でファイルをロードする
検索エンジンに Django を使用しています。リクエストは POST によって行われ、サーバーはそれらを処理し、JSON 形式で応答します。高速化するには、最初に (manage.py runserver を使用して) インデックス ファイルをロードし、ビューが呼び出されたときにインデックス ファイルにアクセスする方法が必要です。
誰もそれを行う方法を知っていますか?
前もって感謝します !
python - データベースを移動するときのPythonでのGensimシャーディング
Windows エクスプローラーを使用して gensim データベースを移動し、新しい場所からアクセスしようとすると、シャーディング エラーがあるというエラーが表示されます。
また、基礎となるSQLiteがgensimにあることを知っています。それをdjangoモデルのSQLiteに移植できますか?
lda - lda gensim からトピック - 単語配列とドキュメント - トピック配列を取得する
状況:
[[0,1,0,0....],....[......0,0,0,0]] という numpy 用語ドキュメント マトリックスの例があります。
上記のマトリックスを gensim の ldamodel メソッドにプラグインしました。そして、それは若者の方法でうまく機能していlda = LdaModel(corpus, num_topics=10)
ます。
corpus
は、上記の用語とドキュメントのマトリックスです。研究目的で、2 つの中間行列 (トピックと単語の配列とドキュメントとトピックの配列) が必要でした。
1) ドキュメントトピック確率行列 (p_d_t) ごと
2) トピック単語ごとの確率行列 (p_w_t)
質問:
gensimLdaModel()
関数からこれらの配列を取得する方法。それらの行列を取得するのを手伝ってください。