“gensim”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

819 参照

python - Pythonコーパス：辞書の読み込み時にエラーが報告されました：「NoneType」オブジェクトに属性「doc2bow」がありません

私はプログラマーではないことを認めなければなりませんが、展開を担当しています。今、私は大きな問題に遭遇しました。私たちの本番環境では、コーパス辞書の読み込みは常に失敗し、エラーは

ただし、同じコードは、テスト環境と開発者のローカル環境の両方で正常に機能します。テストサーバーを本番データベースに接続すると、ロードが機能します。これは、データベースが正常であることを意味します。

すべてのディレクトリのすべての設定ファイルを確認しました。必要なファイルはすべてそこにあり、すべての「パス」は問題ありません。テスト環境から凍結したすべての依存関係を再インストールしました。しかし、根本的な原因を見つけることができません。

トラブルシューティングをどのように進めればよいか、アドバイスをいただけないでしょうか。

2014-09-14T03:21:13.430

0 投票する

1 に答える

1201 参照

python - gensim の元の LDA の項の重み付け

gensim ライブラリを使用して、一連のドキュメントに LDA を適用しています。gensim を使用すると、重みがバイナリ、tf、tf-idf などの用語に関係なく、LDA をコーパスに適用できます。

私の質問は、元のLDAに使用する必要がある重み付けという用語は何ですか? 私が正しく理解していれば、重みは用語の頻度であるはずですが、よくわかりません。

python lda topic-modeling gensim

2014-09-18T14:28:04.003

0 投票する

0 に答える

654 参照

windows-7 - Python pip が scipy、scikit-learn、gensim で機能しない

Python 3.3 を使用して Windows 7 にscipy、scikit-learn、およびをインストールしようとしています。gensimこれらのいずれかを試した場合: pip install sci

次のような ImportError が発生します。

はい、インストールnumpyしました - Python にインポートしようとすると正常に動作します。scipy実行可能なインストーラーをscikit-learnダウンロードしてインストールすることはできましたが、 gensim1つもありません... easy_install3つすべてを使用してみましたが、どちらも機能しません。

Pythonのインストールと関係がありますか？何か案は？よろしくお願いします！

windows-7 pip python-3.3 gensim

2014-09-19T14:32:16.983

0 投票する

1 に答える

520 参照

lda - バイ（多）言語コーパスの Lda

Graberらの結果を再現しようとしています。LDA が多言語コーパスで使用される場合、トピックの最も可能性の高い用語 (トップ 10 など) は単一の言語に由来することを示しています。彼らの論文はこちらです。

これは、IMO を実行するための妥当な健全性チェックですが、問題が発生しています。

彼らが使用したのと同じコーパス、Europarl コーパスを使用しています。コーパスはブルガリア語と英語で構成されています。ブルガリア語と英語のコーパスを連結しました

これには各行に文が含まれており、ブルガリア語の行のコレクションと英語の 2 番目のコレクションがあります。LDA モデルを 4 つのトピックに当てはめると、上位 10 のうち 3 つには英語の用語のみが含まれ、4 つ目は英語とブルガリア語が混在しています。LDA のデフォルト設定を使用しています。

ストップワードやまばらな用語を削除していないことに注意してください。ただし、これは問題ではないと思います。直感的に、ブルガリア語のみの用語を含むトピックと、英語のみの用語を含むトピックがあるはずですよね?

lda topic-modeling gensim

2014-09-25T06:23:31.277

0 投票する

2 に答える

1518 参照

python - Gensim の BleiCorpus と AP のデータセット: IO エラー

Python を使用した本の「機械学習システムの構築」のトピックモデリング/潜在的ディリクレ配分 (LDA) に関するチュートリアルに従おうとしています。

この本ではあまり詳しく説明していませんが、トピックモデリングの最初の部分でエラーが返されます。

エラー：

vocab.txt ファイルは存在しませんが、存在するはずのディレクトリに切り替えると、次のことがわかります。

$ ls download_ap.sh download_wp.sh preprocess-wikidata.sh

apデータを個別にダウンロードする必要があるようです（本には記載されていません）ので、次のようにします：

私はこれを得る：

この問題を解決する方法を知っている人はいますか?

ありがとうございました

python enthought lda topic-modeling gensim

2014-10-01T16:20:48.690

0 投票する

1 に答える

3074 参照

python - gensimを使用してウィキペディアを解析しようとするSparkとPython

私の以前の質問に基づいて、Spark と Python は RDD の入力としてカスタムファイル形式/ジェネレーターを使用します。基本的に sc.textFile() で入力を解析し、自分のまたはいくつかのライブラリカスタム関数を使用して解析できるはずです。

今、特に gensim フレームワークを使用してウィキペディアのダンプを解析しようとしています。マスターノードとすべてのワーカーノードに gensim を既にインストールしており、この質問List (or iterator) of tuples returned by MAP (PySpark) に触発されたウィキペディアページを解析するために、gensim ビルドイン関数を使用したいと考えています。

私のコードは次のとおりです。

extract_pages のソースコードはhttps://github.com/piskvorky/gensim/blob/develop/gensim/corpora/wikicorpus.pyで見つけることができ、私の経験に基づいて、Spark で動作するはずです。

残念ながら、コードを実行すると、次のエラーログが表示されます。

そして、おそらく Spark ログ:

と

Spark なしでこれをうまく試したので、問題は Spark と gensim の組み合わせのどこかにあるはずですが、私が得ているエラーはよくわかりません。gensim wikicorpus.py の 190 行目にファイルの読み取りが見られません。

編集：

Spark からいくつかのログを追加しました。

EDIT2：

gensim は from xml.etree.cElementTree import iterparse, documentation hereを使用しており、これが問題を引き起こす可能性があります。実際には、xml データを含むファイル名またはファイルが必要です。RDD は xml データを含むファイルと見なすことができますか?

python apache-spark gensim wikimedia-dumps

2014-10-05T13:27:25.027

0 投票する

1 に答える

4246 参照

python - Python:: IOError: [Errno 2] そのようなファイルまたはディレクトリはありません: 'models/dictionary.dict'

Python でのトピックモデリングに gensim パッケージを使用しています。

gensim を使用してトピックモデルをトレーニングしようとしています。以下は train.py モジュールです。

このモジュールを実行すると、次のエラーが発生します。

誰でも私が問題を理解するのを手伝ってくれますか?

python gensim

2014-10-09T19:12:16.250

0 投票する

2 に答える

2689 参照

python - gensim で LDA を実行するとインデックスエラーが発生する

私は持っているドキュメントを読みました

次、

次に、コーパスを構築します。

buildDictionary と buildCorpus の定義:

それから私は言葉を止めます：

次に、次のように呼び出します。

エラーは次のとおりです。

以下のログ情報は、開始されたがその後クラッシュしたことを示しています。

そして、上に投稿したエラーメッセージが表示されます。

python lda topic-modeling gensim

2014-11-08T01:13:02.520

問題タブ [gensim]

Reference