問題タブ [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
16938 参照

python - 「ファイル」オブジェクトには属性「rfind」がありません

word2vec をファイルに保存しようとしています。

genericpath.py で次のエラーが発生します

どこが間違っているのですか?

0 投票する
2 に答える
14146 参照

nlp - トレーニング前のコーパスのword2vec見出し語化

Word2vec は、主に未加工のコーパス データでトレーニングされているようです。ただし、見出し語化は、多くの意味的類似性タスクの標準的な前処理です。word2vec をトレーニングする前にコーパスを見出し語化した経験があるかどうか、またこれが有用な前処理ステップであるかどうか疑問に思っていました。

0 投票する
6 に答える
17577 参照

python - python word2vecがインストールされていません

Python2.7 インタープリターを使用して Windows 7 マシンに word2vec をインストールしようとしています: https://github.com/danielfrg/word2vec

setup.pyzip をダウンロードして、解凍したディレクトリからpython install を実行して実行してみましたpip install。ただし、どちらの場合も、次のエラーが返されます。

へのアクセスsubprocess.call()に問題があるようだったので、少しグーグルで検索した後shell=True、行に word2vec を追加すると、次のsetup.pyエラーがスローされました。

正直なところ、ここからどこへ行けばいいのかさえわかりません。また、make をインストールして、インストール時にパス変数を .exe ファイルに設定しようとしました。アドバイスをいただければ幸いです。

アップデート:

word2vec モジュールは機能しないと呼ばれるパッケージはgenismかなりうまく機能しているようですが、他にもいくつかの優れた NLP 機能がありますhttp://radimrehurek.com/gensim/

0 投票する
1 に答える
687 参照

python - Pythonの別のプログラムでそれらを使用するためにオブジェクトを存続させます

word2vec を使用して、2 つの単語の類似度を計算しています。そのため、モデルには GoogleNews を使用しています。このモデルは非常に大きいため、読み込みに時間がかかります。

これをロードして変数/オブジェクトに保持したいので、Pythonプログラムを実行するたびに呼び出すことができます

これはどのように達成できますか?何か案が?

0 投票する
0 に答える
725 参照

python - word2vcデータファイルをPythonに読み込む際のMemoryError

Windows 7 で word2vec を使用しようとしています。24 GB の RAM と i7 プロセッサがあり、64 ビットの Python を使用しています。Radimのチュートリアルに従おうとしています。word2vecのオリジナルページが提供しているgoogle 30億ファイルのベクトルにアクセスしたい。行を実行すると:

次のエラーが表示されます。

ファイルが 1.3GB しかなく、メモリの空き容量が十分にあるため、この問題を解決する方法がわかりません。

0 投票する
3 に答える
16043 参照

machine-learning - Word2Vec: Number of Dimensions

I am using Word2Vec with a dataset of roughly 11,000,000 tokens looking to do both word similarity (as part of synonym extraction for a downstream task) but I don't have a good sense of how many dimensions I should use with Word2Vec. Does anyone have a good heuristic for the range of dimensions to consider based on the number of tokens/sentences?

0 投票する
2 に答える
3456 参照

text - 分類子の機能として (Word2Vec などから取得した) 単語のベクトル表現を使用する方法は?

私は、テキスト分類に BOW 機能を使用することに慣れています。そこでは、最初にコーパスの語彙のサイズを見つけ、これが特徴ベクトルのサイズになります。各文/ドキュメント、およびそのすべての構成単語について、その文/ドキュメント内のその単語の有無に応じて 0/1 を配置します。

しかし、各単語のベクトル表現を使用しようとしている今、グローバル語彙の作成は不可欠ですか?