問題タブ [word2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - word2vec bin ファイルをテキストに変換する
word2vec サイトから、GoogleNews -vectors-negative300.bin.gz をダウンロードできます。.bin ファイル (約 3.4GB) は、私には役に立たないバイナリ形式です。Tomas Mikolovは、「バイナリ形式をテキスト形式に変換するのはかなり簡単なはずです (ただし、より多くのディスク容量が必要になります)。距離ツールでコードを確認してください。バイナリ ファイルを読み取るのはかなり簡単です。」残念ながら、私はhttp://word2vec.googlecode.com/svn/trunk/distance.cを理解するのに十分な C を知りません。
おそらくgensimもこれを行うことができますが、私が見つけたすべてのチュートリアルは、テキストからの変換に関するものであり、他の方法ではないようです。
C コードの変更や、gensim がテキストを出力するための指示を誰かが提案できますか?
python - 事前に訓練された単語ベクトルで Gensim doc2vec を使用するには?
私は最近、Gensim への doc2vec の追加に出会いました。事前にトレーニングされた単語ベクトル (word2vec の元の Web サイトにあるものなど) を doc2vec で使用するにはどうすればよいですか?
それとも、doc2vec は、段落ベクトルのトレーニングに使用するのと同じ文から単語ベクトルを取得していますか?
ありがとう。
nlp - 単語ベクトルの作成方法
単語ベクトルを作成するには? 単語ベクトルを作成するために 1 つのホット キーを使用しましたが、非常に巨大であり、同様のセマンティック ワードに対して一般化されていません。そこで、ニューラルネットワークを使って単語の類似性や単語ベクトルを見つける単語ベクトルについて聞いたことがあります。だから私はこのベクトル(アルゴリズム)を生成する方法、または単語ベクトルの作成を開始するための良い素材を知りたかったのですか?
python - エラー: 'utf8' コーデックは位置 0 のバイト 0x80 をデコードできません: 無効な開始バイト
次のkaggle assignmnetを実行しようとしています。word2vecを使用するためにgensimパッケージを使用しています。モデルを作成してディスクに保存できます。しかし、ファイルを読み込もうとすると、以下のエラーが発生します。
同様の質問を見つけました。しかし、私は問題を解決できませんでした。私のprog_w2v.pyは以下の通りです。
コード hereを使用してモデルを生成しようとしています。プログラムがモデルを生成するのに約 30 分かかります。したがって、デバッグのために何度も実行することはできません。
scala - Apache Spark でファイルから RDD のシーケンスを結合するメモリ効率の良い方法
現在、UMBC Webbase Corpus (400 ファイルで約 30 GB のテキスト) で Word2Vec ベクトルのセットをトレーニングしようとしています。
100 GB 以上のマシンでも、メモリ不足の状況に陥ることがよくあります。アプリケーション自体で Spark を実行します。少し調整しようとしましたが、10 GB を超えるテキスト データに対してこの操作を実行できません。私の実装の明確なボトルネックは、以前に計算された RDD の結合であり、メモリ不足の例外が発生する場所です。
おそらく、これよりもメモリ効率の高い実装を思いついた経験があるでしょう。