単語をベクトルに変換するためのモデルがあります (たとえば、word2vec モデル)。おそらく個々の単語について学習したベクトルを使用して、文/ドキュメントをベクトルに変換する同様のモデルは存在しますか?
5 に答える
1) グラムをスキップする方法:ここの論文とそれを使用するツール、google word2vec
2) LSTM-RNNを使用して文の意味表現を形成する。
3)文章や文書の表現。Paragraph ベクトルは、この論文で紹介されています。これは基本的に、文、段落、ドキュメントなどの可変長のテキストから固定長の特徴表現を学習する教師なしアルゴリズムです。
4) この論文は文/段落ベクトルを形成しませんが、それを行うのは簡単です。個々の単語ベクトルをプラグインするだけで ( Glove 単語ベクトルが最高のパフォーマンスを発揮することがわかっています)、文/段落全体のベクトル表現を形成できます。
すぐに使えるものではありませんが、特定のことをしようとしている場合、おそらく精度の点で打ち負かすのは難しいソリューションです。
RNN を構築し (LSTM または GRU メモリ セルを使用して、比較はこちら)、達成しようとしている実際のタスクのエラー関数を最適化します。文を入力し、必要な出力を生成するようにトレーニングします。文が与えられた後のネットワークの活性化は、文の表現です (ただし、ネットワークの出力のみを気にする場合があります)。
文は、ワンホット エンコードされた文字のシーケンス、ワンホット エンコードされた単語のシーケンス、または単語ベクトルのシーケンス ( GloVeやword2vecなど) として表すことができます。単語ベクトルを使用する場合、単語ベクトルへの逆伝播を続けて重みを更新できるため、実行中のタスクに合わせて調整されたカスタム単語ベクトルも取得できます。