問題タブ [word2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 「ファイル」オブジェクトには属性「rfind」がありません
word2vec をファイルに保存しようとしています。
genericpath.py で次のエラーが発生します
どこが間違っているのですか?
nlp - トレーニング前のコーパスのword2vec見出し語化
Word2vec は、主に未加工のコーパス データでトレーニングされているようです。ただし、見出し語化は、多くの意味的類似性タスクの標準的な前処理です。word2vec をトレーニングする前にコーパスを見出し語化した経験があるかどうか、またこれが有用な前処理ステップであるかどうか疑問に思っていました。
python - python word2vecがインストールされていません
Python2.7 インタープリターを使用して Windows 7 マシンに word2vec をインストールしようとしています: https://github.com/danielfrg/word2vec
setup.py
zip をダウンロードして、解凍したディレクトリからpython install を実行して実行してみましたpip install
。ただし、どちらの場合も、次のエラーが返されます。
へのアクセスsubprocess.call()
に問題があるようだったので、少しグーグルで検索した後shell=True
、行に word2vec を追加すると、次のsetup.py
エラーがスローされました。
正直なところ、ここからどこへ行けばいいのかさえわかりません。また、make をインストールして、インストール時にパス変数を .exe ファイルに設定しようとしました。アドバイスをいただければ幸いです。
アップデート:
word2vec モジュールは機能しないと呼ばれるパッケージはgenism
かなりうまく機能しているようですが、他にもいくつかの優れた NLP 機能がありますhttp://radimrehurek.com/gensim/
python - Pythonの別のプログラムでそれらを使用するためにオブジェクトを存続させます
word2vec を使用して、2 つの単語の類似度を計算しています。そのため、モデルには GoogleNews を使用しています。このモデルは非常に大きいため、読み込みに時間がかかります。
これをロードして変数/オブジェクトに保持したいので、Pythonプログラムを実行するたびに呼び出すことができます
これはどのように達成できますか?何か案が?
python - word2vcデータファイルをPythonに読み込む際のMemoryError
Windows 7 で word2vec を使用しようとしています。24 GB の RAM と i7 プロセッサがあり、64 ビットの Python を使用しています。Radimのチュートリアルに従おうとしています。word2vecのオリジナルページが提供しているgoogle 30億ファイルのベクトルにアクセスしたい。行を実行すると:
次のエラーが表示されます。
ファイルが 1.3GB しかなく、メモリの空き容量が十分にあるため、この問題を解決する方法がわかりません。
machine-learning - Word2Vec: Number of Dimensions
I am using Word2Vec with a dataset of roughly 11,000,000 tokens looking to do both word similarity (as part of synonym extraction for a downstream task) but I don't have a good sense of how many dimensions I should use with Word2Vec. Does anyone have a good heuristic for the range of dimensions to consider based on the number of tokens/sentences?
text - 分類子の機能として (Word2Vec などから取得した) 単語のベクトル表現を使用する方法は?
私は、テキスト分類に BOW 機能を使用することに慣れています。そこでは、最初にコーパスの語彙のサイズを見つけ、これが特徴ベクトルのサイズになります。各文/ドキュメント、およびそのすべての構成単語について、その文/ドキュメント内のその単語の有無に応じて 0/1 を配置します。
しかし、各単語のベクトル表現を使用しようとしている今、グローバル語彙の作成は不可欠ですか?