Gensim の実装における word2vec と doc2vec ベクトルの関係を理解しようとしています。私のアプリケーションでは、同じラベル (トピック) で複数のドキュメントにタグを付けています。単語ベクトルもトレーニングするために、dbow_words=1 を使用してコーパスで doc2vec モデルをトレーニングしています。この方法で単語ベクトルと文書ベクトルの間の類似性を得ることができましたが、これは非常に理にかなっています。単語に似たドキュメントのラベルを取得する - doc2vec_model.docvecs.most_similar(positive = [doc2vec_model["management"]], topn = 50))
しかし、私の質問は、word2vec と doc2vec ベクトルの間の類似性を計算することの理論的解釈についてです。同じ次元 (d = 200) の同じコーパスでトレーニングすると、単語ベクトルと文書ベクトルを常に比較して、文書ラベルの類似単語または単語の類似文書ラベルを見つけることができると想定しても安全でしょうか。どんな提案やアイデアも大歓迎です。
質問 2: 私の他の質問は、最終的な word2vec モデルにおける単語の高頻度/低頻度の影響についてです。wordA と wordB がドキュメントの特定の doc ラベル (セット) で類似したコンテキストを持っているが、wordA が wordB よりもはるかに高い頻度を持っている場合、wordB は対応する doc ラベルとの類似性スコアが高いかどうか。コーパスを一時的にサンプリングすることにより、複数の word2vec モデルをトレーニングしようとしています。コンテキストが比較的似ていると仮定すると、単語がますます頻繁になるという仮説が、ドキュメント ラベルとの類似性スコアも増加するかどうかを知りたいです。この仮定をするのは間違っていますか?提案/アイデアは大歓迎です。
ありがとう、マニッシュ