問題タブ [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
73556 参照

python - Doc2vec: ドキュメント ベクトルを取得する方法

Doc2vecを使用して2つのテキストドキュメントのドキュメントベクトルを取得するには? 私はこれが初めてなので、誰かが私を正しい方向に向けてくれたり、チュートリアルを手伝ってくれたりすると助かります

私はゲンシムを使用しています。

私は得る

AttributeError: 'list' オブジェクトに属性 'words' がありません

これを実行するたびに。

0 投票する
1 に答える
983 参照

python - Gensim を使用したスペイン語 Wikipedia の処理

を使用してウィキペディアを処理したいgensim.corpora.wikicorpus。私の最終的な目的は、そこからWord2Vecモデルをトレーニングすることです。

動作していますが、スペイン語のアクセント付き母音に問題があります: á、é、í、ó、ú。

それらをa、e、i、o、uに正規化したい。

gensimにはdeaccent関数があるようですが、コーパスの構築中に直接適用したいと思います。これはできますか?

これが実際の例です:

0 投票する
0 に答える
100 参照

gensim - 単語と文書の比較

私の知る限り、doc2vec はドキュメントと単語の両方の埋め込みを計算します。単語ベクトルと文書ベクトルを使用して、単語と文書の類似度を推定したり、文書と単語との類似度のみを推定したりできますか? どんな発言でも役に立ちます。

0 投票する
1 に答える
8711 参照

python - word2vec の設定 - KeyError: "word 'word' not in ボキャブラリ"

word2vec を使用しようとしましたが、任意の単語で何かをしようとするとエラーが発生します。エンコーディングの問題のようです。これが私がやったことです:

word2vec の初期化:

少しテストします。

エラー:

でモデルをロードしようとしましたbinary=Falseが、ロード中にエラーが発生します。

0 投票する
1 に答える
5981 参照

python - Gensim Word2vec : セマンティックな類似性

gensim word2vec の 2 つの類似度測定値の違いを知りたかった: most_similar() と most_similar_cosmul()。最初のものは単語ベクトルの余弦類似度を使用して機能するのに対し、他のものは Omer Levy と Yoav Goldberg によって提案された乗法結合目的を使用することを知っています。それが結果にどのように影響するか知りたいですか?意味的な類似性を与えるのはどれですか? など。例:

結果: [('queen', 0.50882536), ...]

結果 : [(u'iraq', 0.8488819003105164), ...]