私の質問は、Word2Vec モデルのユニークで非常に具体的な使用のためのモデルの適切なトレーニングに関するものです。Word2Vecの詳細はこちら
私は、単語埋め込み内の名詞-形容詞 (または ) の関係を特定することに取り組んでいます。
(たとえば、データセットの文に「素敵な車」があります。コーパスの単語の埋め込みと、すべてラベル付けされた名詞と形容詞を考えると、「素敵な」を接続する適切なベクトルを見つける手法を設計しようとしています'車'。)
もちろん、その単語のペアだけを結び付けようとしているわけではありませんが、このテクニックはすべての関係に当てはまるはずです。現時点では教師ありアプローチが採用されており、教師なしメソッドの設計に向けて作業を試みます。
私がやろうとしていることを理解できたので、問題を説明します。適切な埋め込みを可能な限り正確に学習するには、大量のデータで word2vec をトレーニングする必要があることは明らかですが、ラベル付きの文 (500-700) を含むデータセットよりも多くのデータを与えることを恐れています。
トレーニングするデータを増やすと (最新のウィキペディアのダンプ データセットなど)、より良いベクトルが学習されるのではないかと心配していますが、余分なデータが単語の配置に影響を与えるため、この単語の関係は余分な要素によってバイアスされます。トレーニングデータ。(たとえば、追加のトレーニング データに「nice Apple」も含まれている場合は、「nice」という単語の配置が損なわれる可能性があります)。
うまくいけば、これは理にかなっていて、私は悪い仮定をしていませんが、十分なトレーニングデータがないために悪いベクトルを持っているか、良いベクトルを持っているが、単語の埋め込みでのベクトルの配置が損なわれているというジレンマに陥っています.
でトレーニングする適切な方法は何ですか? できるだけ多くのトレーニング データ (数十億語) またはラベル付けされたデータセット (500 ~ 700 文) のみ?
お時間をいただきありがとうございます。説明した内容が意味をなさない場合はお知らせください。