問題タブ [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
10 に答える
52721 参照

python - word2vec bin ファイルをテキストに変換する

word2vec サイトから、GoogleNews -vectors-negative300.bin.gz をダウンロードできます。.bin ファイル (約 3.4GB) は、私には役に立たないバイナリ形式です。Tomas Mikolovは、「バイナリ形式をテキスト形式に変換するのはかなり簡単なはずです (ただし、より多くのディスク容量が必要になります)。距離ツールでコードを確認してください。バイナリ ファイルを読み取るのはかなり簡単です。」残念ながら、私はhttp://word2vec.googlecode.com/svn/trunk/distance.cを理解するのに十分な C を知りません。

おそらくgensimもこれを行うことができますが、私が見つけたすべてのチュートリアルは、テキストからの変換に関するものであり、他の方法ではないようです。

C コードの変更や、gensim がテキストを出力するための指示を誰かが提案できますか?

0 投票する
0 に答える
282 参照

neural-network - doc2vec への入力の追加

最近、word2vecおよびdoc2vecメソッドを使い始めました。彼らは素晴らしいです!しかし、私は彼らと少し遊びたいです。2 つのメソッドを比較すると、違いは doc2vec メソッドでは、ニューラル ネットワーク docMatrix への入力が 1 つ余分にあることがわかりました。ニューラルネット (別の場所からのトレーニング済みベクトル) にもう 1 つの入力を追加し、ドキュメントの出力ベクトルを取得したいと考えています。やりやすいですか?word2vecコードで何が起こっているのかを正確に理解するのを手伝ってくれる人はいますか? ありがとう :)

0 投票する
4 に答える
40018 参照

python - 事前に訓練された単語ベクトルで Gensim doc2vec を使用するには?

私は最近、Gensim への doc2vec の追加に出会いました。事前にトレーニングされた単語ベクトル (word2vec の元の Web サイトにあるものなど) を doc2vec で使用するにはどうすればよいですか?

それとも、doc2vec は、段落ベクトルのトレーニングに使用するのと同じ文から単語ベクトルを取得していますか?

ありがとう。

0 投票する
2 に答える
11430 参照

nlp - 単語ベクトルの作成方法

単語ベクトルを作成するには? 単語ベクトルを作成するために 1 つのホット キーを使用しましたが、非常に巨大であり、同様のセマンティック ワードに対して一般化されていません。そこで、ニューラルネットワークを使って単語の類似性や単語ベクトルを見つける単語ベクトルについて聞いたことがあります。だから私はこのベクトル(アルゴリズム)を生成する方法、または単語ベクトルの作成を開始するための良い素材を知りたかったのですか?

0 投票する
4 に答える
22234 参照

python - エラー: 'utf8' コーデックは位置 0 のバイト 0x80 をデコードできません: 無効な開始バイト

次のkaggle assignmnetを実行しようとしています。word2vecを使用するためにgensimパッケージを使用しています。モデルを作成してディスクに保存できます。しかし、ファイルを読み込もうとすると、以下のエラーが発生します。

同様の質問を見つけました。しかし、私は問題を解決できませんでした。私のprog_w2v.pyは以下の通りです。

コード hereを使用してモデルを生成しようとしています。プログラムがモデルを生成するのに約 30 分かかります。したがって、デバッグのために何度も実行することはできません。

0 投票する
3 に答える
47937 参照

machine-learning - word2vec: ネガティブ サンプリング (素人用語で)?

以下の論文を読んでいますが、負のサンプリングの概念を理解するのに苦労しています。

http://arxiv.org/pdf/1402.3722v1.pdf

誰でも助けてくれませんか?

0 投票する
2 に答える
4208 参照

scala - Apache Spark でファイルから RDD のシーケンスを結合するメモリ効率の良い方法

現在、UMBC Webbase Corpus (400 ファイルで約 30 GB のテキスト) で Word2Vec ベクトルのセットをトレーニングしようとしています。

100 GB 以上のマシンでも、メモリ不足の状況に陥ることがよくあります。アプリケーション自体で Spark を実行します。少し調整しようとしましたが、10 GB を超えるテキスト データに対してこの操作を実行できません。私の実装の明確なボトルネックは、以前に計算された RDD の結合であり、メモリ不足の例外が発生する場所です。

おそらく、これよりもメモリ効率の高い実装を思いついた経験があるでしょう。