2

中心的な質問: 単語埋め込みを使用してテキストを表現する正しい方法は?

ツイートの感情分類アプリケーションを構築しています。ツイートをネガティブ、ニュートラル、ポジティブに分類します。私は、theano の上に Keras を使用し、単語埋め込み (Google の word2vec または Stanfords GloVe) を使用してこれを行っています。

ツイートのテキストを表すために、次のようにしました。

  1. 事前トレーニング済みのモデル (word2vec-twitter モデルなど) [ M ] を使用して、単語を埋め込みにマッピングしました。
  2. テキスト内の単語を使用してMをクエリし、対応するベクトルを取得します。したがって、つぶやき ( T ) が "Hello world" で、Mが単語 'Hello' と 'World' に対してベクトルV1V2を与えるとします。
  3. ツイートTは、( V ) V1 + V2 (ベクトルを追加) またはV1V2 (ベクトルを連結) として表すことができます[これらは 2 つの異なる戦略です] [連結は並置を意味するため、V1、V2が d 次元ベクトルである場合、私の例Tは 2 次元ベクトルです]
  4. 次に、つぶやきTはベクトルVで表されます。

上記に従った場合、My Dataset はベクトル (使用する戦略に応じて単語ベクトルの合計または連結) に過ぎません。このデータセットでFFN、LSTMなどのディープネットをトレーニングしています。しかし、私の結果は素晴らしいものではありません。

これは単語埋め込みを使用してテキストを表現する正しい方法ですか? 他のより良い方法は何ですか?

あなたのフィードバック/批評は非常に役立ちます。

4

2 に答える 2

1

あなたの目的のために、それらのベクトルを構成する別の方法を考えたほうがよいと思います。単語の埋め込みに関する文献には、この種の構成に対する批判の例が含まれています (見つけ次第、正しい参考文献で回答を編集します)。

たとえば、次のような他の可能なアプローチも検討することをお勧めします。

  • 単一の単語ベクトルをネットへの入力として使用します (アーキテクチャはわかりませんが、LSTM は反復的であるため、単語のシーケンスを処理できます)。
  • 完全な段落埋め込みの使用 (つまり、https://cs.stanford.edu/~quocle/paragraph_vector.pdf )
于 2016-03-03T15:47:44.837 に答える