問題タブ [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonコーパス:辞書の読み込み時にエラーが報告されました:「NoneType」オブジェクトに属性「doc2bow」がありません
私はプログラマーではないことを認めなければなりませんが、展開を担当しています。今、私は大きな問題に遭遇しました。私たちの本番環境では、コーパス辞書の読み込みは常に失敗し、エラーは
ただし、同じコードは、テスト環境と開発者のローカル環境の両方で正常に機能します。テストサーバーを本番データベースに接続すると、ロードが機能します。これは、データベースが正常であることを意味します。
すべてのディレクトリのすべての設定ファイルを確認しました。必要なファイルはすべてそこにあり、すべての「パス」は問題ありません。テスト環境から凍結したすべての依存関係を再インストールしました。しかし、根本的な原因を見つけることができません。
トラブルシューティングをどのように進めればよいか、アドバイスをいただけないでしょうか。
python - gensim の元の LDA の項の重み付け
gensim ライブラリを使用して、一連のドキュメントに LDA を適用しています。gensim を使用すると、重みがバイナリ、tf、tf-idf などの用語に関係なく、LDA をコーパスに適用できます。
私の質問は、元のLDAに使用する必要がある重み付けという用語は何ですか? 私が正しく理解していれば、重みは用語の頻度であるはずですが、よくわかりません。
windows-7 - Python pip が scipy、scikit-learn、gensim で機能しない
Python 3.3 を使用して Windows 7 にscipy
、scikit-learn
、およびをインストールしようとしています。gensim
これらのいずれかを試した場合: pip install sci
次のような ImportError が発生します。
はい、インストールnumpy
しました - Python にインポートしようとすると正常に動作します。scipy
実行可能なインストーラーをscikit-learn
ダウンロードしてインストールすることはできましたが、 gensim
1つもありません... easy_install
3つすべてを使用してみましたが、どちらも機能しません。
Pythonのインストールと関係がありますか?何か案は?よろしくお願いします!
lda - バイ(多)言語コーパスの Lda
Graberらの結果を再現しようとしています。LDA が多言語コーパスで使用される場合、トピックの最も可能性の高い用語 (トップ 10 など) は単一の言語に由来することを示しています。彼らの論文はこちらです。
これは、IMO を実行するための妥当な健全性チェックですが、問題が発生しています。
彼らが使用したのと同じコーパス、Europarl コーパスを使用しています。コーパスはブルガリア語と英語で構成されています。ブルガリア語と英語のコーパスを連結しました
これには各行に文が含まれており、ブルガリア語の行のコレクションと英語の 2 番目のコレクションがあります。LDA モデルを 4 つのトピックに当てはめると、上位 10 のうち 3 つには英語の用語のみが含まれ、4 つ目は英語とブルガリア語が混在しています。LDA のデフォルト設定を使用しています。
ストップワードやまばらな用語を削除していないことに注意してください。ただし、これは問題ではないと思います。直感的に、ブルガリア語のみの用語を含むトピックと、英語のみの用語を含むトピックがあるはずですよね?
python - Gensim の BleiCorpus と AP のデータセット: IO エラー
Python を使用した本の「機械学習システムの構築」のトピック モデリング/潜在的ディリクレ配分 (LDA) に関するチュートリアルに従おうとしています。
この本ではあまり詳しく説明していませんが、トピック モデリングの最初の部分でエラーが返されます。
エラー:
vocab.txt ファイルは存在しませんが、存在するはずのディレクトリに切り替えると、次のことがわかります。
$ ls download_ap.sh download_wp.sh preprocess-wikidata.sh
apデータを個別にダウンロードする必要があるようです(本には記載されていません)ので、次のようにします:
私はこれを得る:
この問題を解決する方法を知っている人はいますか?
ありがとうございました
python - gensimを使用してウィキペディアを解析しようとするSparkとPython
私の以前の質問に基づいて、Spark と Python は RDD の入力としてカスタム ファイル形式/ジェネレーターを使用します。基本的に sc.textFile() で入力を解析し、自分のまたはいくつかのライブラリ カスタム関数を使用して解析できるはずです。
今、特に gensim フレームワークを使用してウィキペディアのダンプを解析しようとしています。マスター ノードとすべてのワーカー ノードに gensim を既にインストールしており、この質問List (or iterator) of tuples returned by MAP (PySpark) に触発されたウィキペディア ページを解析するために、gensim ビルドイン関数を使用したいと考えています。
私のコードは次のとおりです。
extract_pages のソース コードはhttps://github.com/piskvorky/gensim/blob/develop/gensim/corpora/wikicorpus.pyで見つけることができ、私の経験に基づいて、Spark で動作するはずです。
残念ながら、コードを実行すると、次のエラー ログが表示されます。
そして、おそらく Spark ログ:
と
Spark なしでこれをうまく試したので、問題は Spark と gensim の組み合わせのどこかにあるはずですが、私が得ているエラーはよくわかりません。gensim wikicorpus.py の 190 行目にファイルの読み取りが見られません。
編集:
Spark からいくつかのログを追加しました。
EDIT2:
gensim は from xml.etree.cElementTree import iterparse
, documentation hereを使用しており、これが問題を引き起こす可能性があります。実際には、xml データを含むファイル名またはファイルが必要です。RDD は xml データを含むファイルと見なすことができますか?
python - Python:: IOError: [Errno 2] そのようなファイルまたはディレクトリはありません: 'models/dictionary.dict'
Python でのトピック モデリングに gensim パッケージを使用しています。
gensim を使用してトピック モデルをトレーニングしようとしています。以下は train.py モジュールです。
このモジュールを実行すると、次のエラーが発生します。
誰でも私が問題を理解するのを手伝ってくれますか?
python - gensim で LDA を実行するとインデックス エラーが発生する
私は持っているドキュメントを読みました
次、
次に、コーパスを構築します。
buildDictionary と buildCorpus の定義:
それから私は言葉を止めます:
次に、次のように呼び出します。
エラーは次のとおりです。
以下のログ情報は、開始されたがその後クラッシュしたことを示しています。
そして、上に投稿したエラーメッセージが表示されます。