私はスタックオーバーフローが初めてです。私の悪い英語を許してください。
学校のプロジェクトでword2vecを使用しています。Word2Vecを使用して単語ベクトルを作成するために、ドメイン固有のコーパス (Physics Textbook など) を使用したいと考えています。このスタンドアロンでは、コーパスのサイズが小さいため、良い結果が得られません。これは、教科書の語彙の範囲外である可能性が非常に高い単語を評価したい場合に特に問題になります。
ドメイン固有の関係とセマンティックな「近さ」をテキストにエンコードする必要があります。「量子」と「ハイゼンベルク」は、この教科書では特に近いものです。これは、バックグラウンド コーパスには当てはまらない場合があります。一般的な単語 ("any" など) を処理するには、基本的な背景モデル (Google が word2vec サイトで提供しているものなど) が必要です。
新しいコーパスを使用してバックグラウンド モデルに取って代わる方法はありますか。コーパスなどでトレーニングするだけではうまくいきません。
2 つのコーパスからのベクトル表現を組み合わせようとする試みはありますか。検索で何も見つかりませんでした。