0

Gensim の実装における word2vec と doc2vec ベクトルの関係を理解し​​ようとしています。私のアプリケーションでは、同じラベル (トピック) で複数のドキュメントにタグを付けています。単語ベクトルもトレーニングするために、dbow_words=1 を使用してコーパスで doc2vec モデルをトレーニングしています。この方法で単語ベクトルと文書ベクトルの間の類似性を得ることができましたが、これは非常に理にかなっています。単語に似たドキュメントのラベルを取得する - doc2vec_model.docvecs.most_similar(positive = [doc2vec_model["management"]], topn = 50))

しかし、私の質問は、word2vec と doc2vec ベクトルの間の類似性を計算することの理論的解釈についてです。同じ次元 (d = 200) の同じコーパスでトレーニングすると、単語ベクトルと文書ベクトルを常に比較して、文書ラベルの類似単語または単語の類似文書ラベルを​​見つけることができると想定しても安全でしょうか。どんな提案やアイデアも大歓迎です。

質問 2: 私の他の質問は、最終的な word2vec モデルにおける単語の高頻度/低頻度の影響についてです。wordA と wordB がドキュメントの特定の doc ラベル (セット) で類似したコンテキストを持っているが、wordA が wordB よりもはるかに高い頻度を持っている場合、wordB は対応する doc ラベルとの類似性スコアが高いかどうか。コーパスを一時的にサンプリングすることにより、複数の word2vec モデルをトレーニングしようとしています。コンテキストが比較的似ていると仮定すると、単語がますます頻繁になるという仮説が、ドキュメント ラベルとの類似性スコアも増加するかどうかを知りたいです。この仮定をするのは間違っていますか?提案/アイデアは大歓迎です。

ありがとう、マニッシュ

4

1 に答える 1

1

トレーニング中に単語ベクトルと doctag ベクトルが交換可能に使用されるトレーニング モードでは、同じ周囲の単語予測タスクに対して、意味のある比較ができる傾向があります。(あなたのモード、インターリーブされたスキップグラム単語トレーニングを使用した DBOW はこれに適合し、論文「段落ベクトルを使用したドキュメントの埋め込み」で使用されるモードです。)

2 番目の質問は抽象的で推測的なものです。それらのアイデアを自分でテストする必要があると思います。Word2Vec/Doc2Vec プロセスは、モデルの制約と他のベクトルの品質とのトレードオフに従って、特定の機械的な単語予測タスクがうまくいくようにベクトルをトレーニングします。結果として得られる空間配置がたまたま他の目的 (ランク付けされた/絶対的な類似性、特定の概念線に沿った類似性、分類など) に役立つことは、観察された実用的な利点にすぎません。これは「機能するトリック」であり、洞察が得られる可能性がありますが、さまざまなパラメーターの選択やコーパスの特性に応じてモデルが変化する方法の多くは、理論的または実験的に解明されていません。

于 2017-01-19T03:35:24.007 に答える