問題タブ [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
607 参照

nlp - word2vec を特別なコーパスにバイアスする

私はスタックオーバーフローが初めてです。私の悪い英語を許してください。

学校のプロジェクトでword2vecを使用しています。Word2Vecを使用して単語ベクトルを作成するために、ドメイン固有のコーパス (Physics Textbook など) を使用したいと考えています。このスタンドアロンでは、コーパスのサイズが小さいため、良い結果が得られません。これは、教科書の語彙の範囲外である可能性が非常に高い単語を評価したい場合に特に問題になります。

ドメイン固有の関係とセマンティックな「近さ」をテキストにエンコードする必要があります。「量子」と「ハイゼンベルク」は、この教科書では特に近いものです。これは、バックグラウンド コーパスには当てはまらない場合があります。一般的な単語 ("any" など) を処理するには、基本的な背景モデル (Google が word2vec サイトで提供しているものなど) が必要です。

新しいコーパスを使用してバックグラウンド モデルに取って代わる方法はありますか。コーパスなどでトレーニングするだけではうまくいきません。

2 つのコーパスからのベクトル表現を組み合わせようとする試みはありますか。検索で何も見つかりませんでした。

0 投票する
2 に答える
2840 参照

nlp - word2vec のコマンド ライン パラメーター

word2vec を使用して、現在のバージョンの英語のウィキペディアで独自の単語ベクトル コーパスを作成したいのですが、そのプログラムを使用するためのコマンド ライン パラメーターの説明が見つかりません。demp-script には次のものがあります:
(text8 は 2006 年の古いウィキペディアのコーパスです)

コマンド ライン パラメータの意味は次のとおりです。
vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

また、約 20GB のウィキペディア テキスト コーパス (.txt ファイル) がある場合、最適な値はどれですか? より大きなコーパスの場合、ベクトルサイズは 300 または 500 の方がよいと読みました。

0 投票する
1 に答える
81 参照

nlp - 単語ベクトルの向きは普遍的ですか?

私は最近 Word2Vec を試していて、フォーラムをトロールしているときに、他の多くの人が独自のデータベースから独自のベクトルを作成していることに気付きました.

これは、データベース全体でベクトルがどのように見えるか、ベクトルが普遍的な方向性を持っているかどうかについて興味をそそられました。

ベクトルは、コーパスで見つかったコンテキストの結果として作成されることを理解しています。その意味で、単語がデータベース間で同じ方向を向いているとはおそらく思わないでしょう。ただし、ドキュメントの言語が一定である場合、コンテキストは異なるデータベース間で少なくともある程度類似している必要があります (bank (for money) や (river) bank などのあいまいな単語を除く)。そして、それらがある程度似ている場合、より一般的に出現する単語を見ると、それらの方向が収束する可能性があると思われますか?

0 投票する
5 に答える
32799 参照

vector - 文または文書をベクトルに変換するにはどうすればよいですか?

単語をベクトルに変換するためのモデルがあります (たとえば、word2vec モデル)。おそらく個々の単語について学習したベクトルを使用して、文/ドキュメントをベクトルに変換する同様のモデルは存在しますか?

0 投票する
1 に答える
1037 参照

semantic-analysis - セマンティック マッチング文字列 - word2vec または s-match を使用していますか?

「より一般的」、「一般的ではない」、「同じ意味」、「反対の意味」などの2つの文字列を一致させるというこの問題があります。

文字列は任意のドメインから取得できます。文字列が人々の電子メールからのものである可能性があると仮定します。

例を挙げると、

ここで、インセプションは映画ほど一般的ではないことを知っておく必要があります (一種の is-a 関係)。

ここで、インセプションはクリストファー・ノーランほど一般的ではないことを知っておく必要があります

一見すると、S-match でうまくいくように見えます。しかし、WordNet や GeoWordNet 以外のナレッジ ベースで S-match を機能させることができるかどうかはわかりません (そのページに記載されています)。

word2vecまたはを使用するdl4jと、類似性スコアが得られると思います。more generalしかし、文字列が他の文字列であるかどうかを伝えることもサポートしていますless generalか?

しかし、word2vec はトレーニング セットやウィキペディアなどの大規模なコーパスに基づいている可能性があります。

誰かが前に進む道に光を当てることができますか?

0 投票する
2 に答える
2466 参照

python - 画像にword2vecを適用するには?

Google の word2vec モデルを研究しています。最大 300 次元のテキスト ワード コーパスのベクトルを生成できました。これは非常に優れたツールであり、ビッグデータでは精度がさらに向上します。

word2vec を使用してグレースケール画像でベクトルを生成する方法はありますか。アプローチは同じだと確信しています。ピクセル強度に基づいてベクトルを生成し、コサイン類似度を計算します。

グレースケール画像の類似距離を計算するモデルを構築しようとしています。word2vec またはテキストで動作するグローブ以外に、これを行うことができるライブラリはありますか?

0 投票する
2 に答える
814 参照

python - gensim を使用した Word2vec トレーニングは、100K 文の後にスワッピングを開始します

約 170K 行のファイルを使用して、1 行に 1 文ずつ、word2vec モデルをトレーニングしようとしています。

「文」には辞書の単語ではなく任意の文字列が含まれているため、特別な使用例を表している可能性があると思います。各文 (行) には約 100 の単語があり、各「単語」には約 20 文字があり、文字"/"や数字も含まれています。

トレーニング コードは非常に単純です。

つまり、100K センテンスまでは非常に高速に動作します (RAM は着実に増加します) が、その後 RAM が不足し、PC がスワップを開始したことがわかり、トレーニングが停止します。利用可能な RAM は多くなく、約 4GB しかなく、word2vecスワップを開始する前にすべて使い果たしています。

OpenBLAS が numpy に正しくリンクされていると思います。これが次のことnumpy.show_config()を示しています。

私の質問は、これは (私のような) 利用可能な RAM があまりないマシンで予想されることですか? または、セットアップが正しく構成されていないように見えますか (またはコードが非効率的ですか)?

前もって感謝します。

0 投票する
1 に答える
2086 参照

nlp - word2vec: 最も可能性の高い単語と文を予測する方法は?

Google の Word2vec は、NLP タスクで強力であることが示されています。私はこのツールにまったく慣れていないため、正確に何ができるのかわかりません。

「今週末、ニューヨークに行きます」という文があるとします。

この文に基づいて、それを変換するための多くのオプションがあります。例えば:

1) 「私は今週末、父とニューヨークに行きます。」

2) 「私は今週末LAに行きます。」

3) 「私は今週末、ニューヨークに行きません。」

word2vec に求めているのは、基本的な文が与えられた場合、その変換の 1 つが最も可能性が高いものであるとどのように予測できるかということです。または、1 つの変換が与えられた場合、基本的な文の上で確率を計算できます。

追加の質問は、word2vec 以外に、同じ目的を果たすことができる他のツールはありますか?