車に関する近いドメインのトピック用に機械学習チャットボットを構築するとき、私は混乱しています。
さまざまな車のモデルに関する多くのテキスト形式の情報があり、これらのデータを使用して Word2Vec プロセスを実行し、Word2Vec.model を保存しました。
次に、word2vec.model を検索することにより、質問セットと回答セットがベクトルに変換されます。最後に、それらをネットワーク トレーニング用の seq2seq モデルに配置します。
——-
私の質問:
word2vec.model を 1 つではなく 2 つ作成する必要がありますか? 質問セットにフィードし、word2vec_question.model に基づいてベクトルに変換し、word2vec_answer.model に従って回答を設定しますか?
Word の埋め込みを使用せず、質問セットと回答セットをトークン化し、seq2seq トレーニングに直接進むチャットボットの例があるのはなぜですか? これは、会話セットがベクトル化せずに S2S ネットワークをトレーニングするのに十分な大きさであるためですか? データが十分に大きい場合、トークン化するだけで十分であり、word2vec モデリングを行う必要はないと言うべきでしょうか?
車のエキスパート システムに戻りますが、データを準備して Q&A の例にフィードする正しい方法についてアドバイスをお願いします。私の最終的な願いは、毎週 word2vec モデルに自動車雑誌からの情報 (会話形式ではなく、新車に関する一節) をフィードすることです。そうすれば、チャットボットはその新モデルに関する質問にも答えることができます。
前もって感謝します。