問題タブ [gensim]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
819 参照

python - Pythonコーパス:辞書の読み込み時にエラーが報告されました:「NoneType」オブジェクトに属性「doc2bow」がありません

私はプログラマーではないことを認めなければなりませんが、展開を担当しています。今、私は大きな問題に遭遇しました。私たちの本番環境では、コーパス辞書の読み込みは常に失敗し、エラーは

ただし、同じコードは、テスト環境と開発者のローカル環境の両方で正常に機能します。テストサーバーを本番データベースに接続すると、ロードが機能します。これは、データベースが正常であることを意味します。

すべてのディレクトリのすべての設定ファイルを確認しました。必要なファイルはすべてそこにあり、すべての「パス」は問題ありません。テスト環境から凍結したすべての依存関係を再インストールしました。しかし、根本的な原因を見つけることができません。

トラブルシューティングをどのように進めればよいか、アドバイスをいただけないでしょうか。

0 投票する
1 に答える
1201 参照

python - gensim の元の LDA の項の重み付け

gensim ライブラリを使用して、一連のドキュメントに LDA を適用しています。gensim を使用すると、重みがバイナリ、tf、tf-idf などの用語に関係なく、LDA をコーパスに適用できます。

私の質問は、元のLDAに使用する必要がある重み付けという用語は何ですか? 私が正しく理解していれば、重みは用語の頻度であるはずですが、よくわかりません。

0 投票する
0 に答える
654 参照

windows-7 - Python pip が scipy、scikit-learn、gensim で機能しない

Python 3.3 を使用して Windows 7 にscipyscikit-learn、およびをインストールしようとしています。gensimこれらのいずれかを試した場合: pip install sci

次のような ImportError が発生します。

はい、インストールnumpyしました - Python にインポートしようとすると正常に動作します。scipy実行可能なインストーラーをscikit-learnダウンロードしてインストールすることはできましたが、 gensim1つもありません... easy_install3つすべてを使用してみましたが、どちらも機能しません。

Pythonのインストールと関係がありますか?何か案は?よろしくお願いします!

0 投票する
1 に答える
520 参照

lda - バイ(多)言語コーパスの Lda

Graberらの結果を再現しようとしています。LDA が多言語コーパスで使用される場合、トピックの最も可能性の高い用語 (トップ 10 など) は単一の言語に由来することを示しています。彼らの論文はこちらです。

これは、IMO を実行するための妥当な健全性チェックですが、問題が発生しています。

彼らが使用したのと同じコーパス、Europarl コーパスを使用しています。コーパスはブルガリア語と英語で構成されています。ブルガリア語と英語のコーパスを連結しました

これには各行に文が含まれており、ブルガリア語の行のコレクションと英語の 2 番目のコレクションがあります。LDA モデルを 4 つのトピックに当てはめると、上位 10 のうち 3 つには英語の用語のみが含まれ、4 つ目は英語とブルガリア語が混在しています。LDA のデフォルト設定を使用しています。

ストップワードやまばらな用語を削除していないことに注意してください。ただし、これは問題ではないと思います。直感的に、ブルガリア語のみの用語を含むトピックと、英語のみの用語を含むトピックがあるはずですよね?

0 投票する
2 に答える
1518 参照

python - Gensim の BleiCorpus と AP のデータセット: IO エラー

Python を使用した本の「機械学習システムの構築」のトピック モデリング/潜在的ディリクレ配分 (LDA) に関するチュートリアルに従おうとしています。

この本ではあまり詳しく説明していませんが、トピック モデリングの最初の部分でエラーが返されます。

エラー:

vocab.txt ファイルは存在しませんが、存在するはずのディレクトリに切り替えると、次のことがわかります。

$ ls download_ap.sh download_wp.sh preprocess-wikidata.sh

apデータを個別にダウンロードする必要があるようです(本には記載されていません)ので、次のようにします:

私はこれを得る:

この問題を解決する方法を知っている人はいますか?

ありがとうございました

0 投票する
1 に答える
3074 参照

python - gensimを使用してウィキペディアを解析しようとするSparkとPython

私の以前の質問に基づいて、Spark と Python は RDD の入力としてカスタム ファイル形式/ジェネレーターを使用します。基本的に sc.textFile() で入力を解析し、自分のまたはいくつかのライブラリ カスタム関数を使用して解析できるはずです。

今、特に gensim フレームワークを使用してウィキペディアのダンプを解析しようとしています。マスター ノードとすべてのワーカー ノードに gensim を既にインストールしており、この質問List (or iterator) of tuples returned by MAP (PySpark) に触発されたウィキペディア ページを解析するために、gensim ビルドイン関数を使用したいと考えています。

私のコードは次のとおりです。

extract_pages のソース コードはhttps://github.com/piskvorky/gensim/blob/develop/gensim/corpora/wikicorpus.pyで見つけることができ、私の経験に基づいて、Spark で動作するはずです。

残念ながら、コードを実行すると、次のエラー ログが表示されます。

そして、おそらく Spark ログ:

Spark なしでこれをうまく試したので、問題は Spark と gensim の組み合わせのどこかにあるはずですが、私が得ているエラーはよくわかりません。gensim wikicorpus.py の 190 行目にファイルの読み取りが見られません。

編集:

Spark からいくつかのログを追加しました。

EDIT2:

gensim は from xml.etree.cElementTree import iterparse, documentation hereを使用しており、これが問題を引き起こす可能性があります。実際には、xml データを含むファイル名またはファイルが必要です。RDD は xml データを含むファイルと見なすことができますか?

0 投票する
1 に答える
4246 参照

python - Python:: IOError: [Errno 2] そのようなファイルまたはディレクトリはありません: 'models/dictionary.dict'

Python でのトピック モデリングに gensim パッケージを使用しています。

gensim を使用してトピック モデルをトレーニングしようとしています。以下は train.py モジュールです。

このモジュールを実行すると、次のエラーが発生します。

誰でも私が問題を理解するのを手伝ってくれますか?

0 投票する
2 に答える
2689 参照

python - gensim で LDA を実行するとインデックス エラーが発生する

私は持っているドキュメントを読みました

次、

次に、コーパスを構築します。

buildDictionary と buildCorpus の定義:

それから私は言葉を止めます:

次に、次のように呼び出します。

エラーは次のとおりです。

以下のログ情報は、開始されたがその後クラッシュしたことを示しています。

そして、上に投稿したエラーメッセージが表示されます。