4

Twitter ユーザーが次に投稿するツイートのセンチメントを予測しようとしています。現在、次の手順があります (手順 1 と 2 は既に Python で実装されています)。

  1. ツイートをポジティブ (1)、ニュートラル (0)、ネガティブ (-1) に分類する方法を学びます。これには単純ベイズ分類器を使用しますが、これは非常にうまく機能します。

  2. ユーザーからの既存のツイートを分類します。[0, 1, -1, -1, -1, 0, 1, 1, ..] 投稿時間に関する情報もあります。

次のツイートのセンチメント (1、0、または -1) を予測することは可能でしょうか?

これにはどのアルゴリズムを使用できますか?

これがどのように機能するかはまだわかりませんが、隠れマルコフモデルは適切ですか、それともある種の回帰ですか?

4

2 に答える 2

3

これについて考える魅力的な方法の 1 つは、センチメントの事前確率と可能性という観点からだと思います。Naive Bayes は尤度モデルです (このツイートがポジティブであるとすると、この正確なツイートを見る可能性はどのくらいありますか?)。これまでに特定の一連の感情を観察したことを前提として、次のツイートが肯定的である事前確率について質問しています。これを行うにはいくつかの方法があります。

  • 最も単純な方法は、ユーザーが発言したツイートの中でポジティブなツイートの割合が、次のツイートがポジティブである確率であるというものです。
  • ただし、これは最新性を無視します。遷移ベースのモデルを考え出すことができます。考えられる前の各状態から、次のツイートがポジティブ、ネガティブ、またはニュートラルになる可能性があります。したがって、3x3 遷移行列があり、最後のツイートが正であった場合に次のツイートが正である条件付き確率は、遷移確率 pos->pos です。これはカウントから推定でき、マルコフのプロセスです (基本的に、以前の状態だけが重要です)。
  • これらの遷移モデルはますます複雑になる可能性があります。たとえば、現在の「状態」は最後の 2 つ、または実際には最後の n 個のツイートの感情である可能性があります。つまり、ますます多くのパラメーターを犠牲にして、より具体的な予測を得ることができます。モデルで。これは、スムージング スキーム、パラメーターの結合などで克服できます。

最後のポイントとして、事前証拠が弱い証拠であるという@Anony-Mousseのポイントは真実になると思います。実際、あなたの事前情報があなたに何を言っても、これは尤度関数によって支配されると思います(実際にツイートにあるもの問題の)。ツイートも表示される場合は、@Neil McGuigan が提案する CRF を検討してください。

于 2013-05-08T13:52:42.373 に答える