中心的な質問: 単語埋め込みを使用してテキストを表現する正しい方法は?
ツイートの感情分類アプリケーションを構築しています。ツイートをネガティブ、ニュートラル、ポジティブに分類します。私は、theano の上に Keras を使用し、単語埋め込み (Google の word2vec または Stanfords GloVe) を使用してこれを行っています。
ツイートのテキストを表すために、次のようにしました。
- 事前トレーニング済みのモデル (word2vec-twitter モデルなど) [ M ] を使用して、単語を埋め込みにマッピングしました。
- テキスト内の単語を使用してMをクエリし、対応するベクトルを取得します。したがって、つぶやき ( T ) が "Hello world" で、Mが単語 'Hello' と 'World' に対してベクトルV1とV2を与えるとします。
- ツイートTは、( V ) V1 + V2 (ベクトルを追加) またはV1V2 (ベクトルを連結) として表すことができます[これらは 2 つの異なる戦略です] [連結は並置を意味するため、V1、V2が d 次元ベクトルである場合、私の例Tは 2 次元ベクトルです]
- 次に、つぶやきTはベクトルVで表されます。
上記に従った場合、My Dataset はベクトル (使用する戦略に応じて単語ベクトルの合計または連結) に過ぎません。このデータセットでFFN、LSTMなどのディープネットをトレーニングしています。しかし、私の結果は素晴らしいものではありません。
これは単語埋め込みを使用してテキストを表現する正しい方法ですか? 他のより良い方法は何ですか?
あなたのフィードバック/批評は非常に役立ちます。