私は、テキスト分類に BOW 機能を使用することに慣れています。そこでは、最初にコーパスの語彙のサイズを見つけ、これが特徴ベクトルのサイズになります。各文/ドキュメント、およびそのすべての構成単語について、その文/ドキュメント内のその単語の有無に応じて 0/1 を配置します。
しかし、各単語のベクトル表現を使用しようとしている今、グローバル語彙の作成は不可欠ですか?
私は、テキスト分類に BOW 機能を使用することに慣れています。そこでは、最初にコーパスの語彙のサイズを見つけ、これが特徴ベクトルのサイズになります。各文/ドキュメント、およびそのすべての構成単語について、その文/ドキュメント内のその単語の有無に応じて 0/1 を配置します。
しかし、各単語のベクトル表現を使用しようとしている今、グローバル語彙の作成は不可欠ですか?
ベクトルのサイズが N (通常は 50 から 500 の間) であるとします。従来の一般化 BOW を一般化する素朴な方法は、(BOW の) 0 ビットを N 個のゼロに置き換え、(BOW の) 1 ビットを実際のベクトル (Word2Vec など) に置き換えるだけです。その場合、特徴のサイズは N * |V| になります。(BOW の |V| 特徴ベクトルと比較して、|V| は語彙のサイズです)。この単純な一般化は、適切な数のトレーニング インスタンスに対してうまく機能するはずです。
特徴ベクトルを小さくするために、人々はさまざまな操作でベクトルの再帰的な組み合わせを使用するなど、さまざまな手法を使用します。(Recursive/Recurrent Neural Network および同様のトリックを参照してください。-pooling-and-unfolding-recursive-autoencoders-for-paraphrase-detection.pdf )