問題タブ [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 潜在意味解析のための「構築済み」マトリックス
作成している小さなアプリに潜在意味解析を使用したいのですが、自分でマトリックスを作成したくありません。(私が持っているドキュメントは、あまり良いトレーニングコレクションを作成できないため、少し短くて不均一であるため、そして新しいコンピューターを入手したばかりで、線形代数などをインストールするのが難しいと感じているためです。必要なライブラリ。)
「デフォルト」/ビルド済みのLSA実装はありますか?たとえば、私が探しているものは次のとおりです。
- デフォルトのU、S、V行列(つまり、Dがトレーニングセットからの用語ドキュメント行列である場合、D = USV ^ Tは特異値分解です)。したがって、任意のクエリベクトルqが与えられると、これらの行列を使用して次のことができます。 qのLSA射影を自分で計算します。
- クエリベクトルqが与えられると、qのLSA射影を返すブラックボックスLSAアルゴリズム。
python - gensim パッケージを使用して一連のシード ワードで LDA を初期化する方法
LDA の単語のシード セットを使用してパラメータを実際に初期化するいくつかの論文を読みました。gensimパッケージでこれがどのように可能か知っている人はいますか?
python - Pythonでgensimを使ったLSI
Python の gensim ライブラリを使用して、潜在的なセマンティック インデックス作成を行っています。ウェブサイトのチュートリアルに従ったところ、かなりうまく機能しました。今、私はそれを少し修正しようとしています。ドキュメントが追加されるたびに lsi モデルを実行したい。
これが私のコードです:
geturls は、Web サイトのコンテンツを文字列として返す関数です。繰り返しますが、tfidf と lsi を実行する前にすべてのドキュメントを処理するまで待っていれば機能しますが、それは私が望んでいることではありません。私は各反復でそれをやりたいです。残念ながら、次のエラーが表示されます。
通常、エラーは 2 番目のドキュメントで表示されます。私はそれが私に言っていることを理解していると思います(辞書のインデックスは悪いです)が、なぜなのかわかりません。私はさまざまなことを試しましたが、何もうまくいかないようです。誰が何が起こっているのか知っていますか?
ありがとう!
python - セグメンテーション違反の理由 Python Package gensim を実行/使用しようとすると?
[gensim][1]
私のいくつかの機械学習実験で、Python 用のベクトル空間モデリング パッケージを使用しようとしています。ここで述べたようにインストール手順に従いましたが、推奨どおりscipy
に使用すると OpenSuse 11.3 へのインストールが失敗したためeasy_install
、公式パッケージ検索ポータルで入手可能なパッケージからインストールすることにしました。
のインストールscipy
はうまくいき、その後、推奨どおりeasy_install
にインストールしていました。gensim
これもうまくいきました。
さて、インストール後、パッケージの使用について彼らが提供した最初の例を実行しようとしました。これは、次のような控えめなインポートステートメントで始まります。
見よ!Python インタープリターでそれを実行しようとすると、親愛なるものがSegmentation Fault
!でクラッシュしました。これが起こったことです:
エラーの原因がどこにあるのかわからないので、誰かが私を救ってくれます。
通常、segfault はプロセスによる不正なメモリ アクセスが原因であると理解していますが、これはインポートが原因で発生している可能性がありますか? または内のいくつかのエラーgensim
?
詳細については、パッケージをインストールするとテストできると言われているので、テストするためにこれを行いましたgensim
、Lo! 同じSegmentation Fault
です!出力は次のとおりです。
依存パッケージについては、次のものがあります。
わかりました、コメントで要求されたように、gdb をインタープリターにフックし、インポート ステートメントを再試行しました。
python - Eclipse + PyDev インポートエラー
IDLE で正常に動作するインストール済みモジュール ( gensim )を Eclipse で PyDev に認識させるのに問題があります。Windows Vista、32 ビットを使用しています。パイソン 2.7。
私はこの質問がされているのを見つけました: here、here、here、およびhere。
推奨される解決策は、設定 > pydev > interpreter - pythonに移動し、python インタープリターを削除して (自動構成を使用して) 再度追加することです。私はこれを行い、Eclipseを再起動しました。にが表示されますがPYTHONPATH
、C:\Python27\lib\site-packages\gensim-0.8.0-py2.7.egg
まだインポート エラーが発生します。私のコードは次のとおりです。
これにより、次の結果が得られます。
別の推奨される解決策は、インタープリターの下部にある [新しいフォルダー] をクリックしてフォルダーを手動で追加することです。python 画面で、gensim がインストールされている場所に移動します。私もこれC:\Python27\lib\site-packages\gensim-0.8.0-py2.7.egg\gensim
を行い、必要なすべての\__init__.py
ファイルを含む を追加しました。しかし、私はまだImportError
.
他に何を試すことができるかについての提案はありますか?
python - TF-IDF は Python の gensim ツールにどのように実装されていますか?
ネットから見つけたドキュメントから、コーパス内の用語の用語頻度と逆ドキュメント頻度の重みを決定するために使用される式を見つけました。
tf-idf(wt)= tf * log(|N|/d);
gensim で言及されている tf-idf の実装を行っていました。ドキュメントに記載されている例は
これは明らかに Tf-IDF の標準実装に従っていません。両モデルの違いは何ですか?
注: 0.70710678 は、固有値計算で通常使用される値 2^(-1/2) です。では、固有値はどのようにして TF-IDF モデルに組み込まれるのでしょうか?
machine-learning - ニュース記事でldaにgensimを使用するには?
ニュース記事の大規模なコーパスからトピックのリストを取得しようとしています.gensimを使用して、LDAを使用して各ドキュメントのトピック分布を抽出することを計画しています. lda の gensim 実装で必要な加工済み記事のフォーマットと、未加工の記事をそのフォーマットに変換する方法を知りたいです。ウィキペディアのダンプでldaを使用することに関するこのリンクを見ましたが、コーパスが処理された状態であり、そのフォーマットがどこにも言及されていないことがわかりました
python - セクションから単語に加えて 20 個を抽出する (python)
Jep はまだ Python をいじっています。
選択した単語とコンテキストのトピックを見つけるツールである Gensim を試してみることにしました。
そこで、テキストのセクションで単語を見つけて、それと一緒に 20 の単語を抽出し (その特定の単語の前の 10 単語とその特定の単語の後の 10 単語のように)、それを他のそのような抽出と一緒に保存して、Gensim がその上で実行します。
私にとって難しいように思われるのは、選択した単語が見つかったときに前後の 10 個の単語を抽出する方法を見つけることです。以前は nltk で遊んでいましたが、テキストを単語または文にトークン化するだけで、文を簡単に把握できました。その特定の文の前後にそれらの単語または文を取得する方法を理解するのは難しいようです。
混乱している方のために (ここは午前 1 時なので混乱している可能性があります)、例を示します。
それが終わるやいなや、白雪姫がまだ生きていると聞いてとても怒っていたので、彼女のすべての血が彼女の心臓に流れ込みました。「でも今は、彼女を完全に破壊するようなものを作ろうかな」と彼女は考えました。そう言って、彼女は自分が理解した術で毒入りの櫛を作り、変装して年老いた未亡人の姿をとった。彼女は 7 つの丘を越えて 7 人の小人の家に行き、[15] ドアをノックして、「今日は良い商品が売られています!」と叫びました。
単語が白雪姫である場合、この部分を抽出したいと思います。
白雪姫がまだ生きていると聞いて、とても怒っていたからです。「でも今は」と彼女は心の中で思いました。
白雪姫の前後に10語。
これが nltk で実行でき、より簡単な場合は、白雪姫が登場する文の前後の文を代わりに取得するのも十分クールです。
誰かが私を助けてくれれば、2つの解決策のうちの1つに満足するでしょう。
これがGensimでもできるなら...そしてその方が簡単なら、私もそれで満足です. したがって、3つの方法のいずれでも問題ありません...頭が真っ白なので、これがどのように行われるかを試してみたいだけです。
python - Gensimを介して見えないドキュメントのトピックを見つける
私はGensimを使って大規模なトピックモデリングを行っています。見えない(インデックス付けされていない)ドキュメントの予測トピックを決定する方法を理解するのに苦労しています。例:LSA(およびLDA)空間でベクトルに変換した2500万のドキュメントがあります。新しいドキュメントのトピックを理解したいので、xと呼びましょう。
Gensimのドキュメントによると、私は次のものを使用できます。
ここで、doc(x)は、xをベクトルに変換する関数です。
ただし、問題は、上記の変数topicsがベクトルを返すことです。このベクトルは、xを追加のドキュメントと比較する場合に役立ちます。これにより、ドキュメント間の余弦の類似性を見つけることができますが、x自体に関連付けられている特定の単語を実際に返すことはできません。
私は何かが足りないのですか、それともGensimにはこの機能がありませんか?
ありがとうございました、
編集
Larsmansが答えを持っています。
以下を使用してトピックを表示することができました。
python - トピックベースのテキストとユーザーの類似性
トピック表現を使用して、ユーザーとテキスト ドキュメント間の類似性を計算したいと考えています。つまり、各ドキュメントとユーザーは、トピック (神経科学、テクノロジーなど) のベクトルと、そのトピックがユーザー/ドキュメントにどの程度関連しているかによって表されます。
私の目標は、これらのベクトル間の類似性を計算して、類似したユーザー、記事、推奨記事を見つけることです。
Pearson Correlation を使用しようとしましたが、約 40k の記事に達し、ベクトルの長さが約 10k になると、メモリと時間がかかりすぎてしまいます。
私はnumpyを使用しています。
これを行うためのより良い方法を想像できますか? それとも(単一のマシン上で)避けられないのですか?
ありがとうございました