3

ツイート、テキスト(携帯電話から)、メールにタグを付けたい。私はこれらの種類のコミュニケーションに特有のこれらの懸念を見つけました:

  • 動詞でいっぱいの現代語。一部のコーパスは動詞が非常に悪いようです
  • 句読点の誤りや文の断片を含む簡単なコミュニケーション
  • 新しい単語「ジェリービーンズバージョン」または「BYODムーブメント」または「youtbankbalis 」

このような「雄弁ではない」テキストに対して堅牢でありながら、リアルタイムWebサーバーとして高速でリソース効率の高いタガーが必要です。

これに最適なタガー(およびコーパス)はどれですか?

4

1 に答える 1

0

ほとんどの POS タガーは、(Marcus、Santorini、および Ann、1993 年) によって提案された Penn Treebank タグセットを使用しました。Penn Treebank タグセットには、品詞の 36 の異なるラベルが含まれています。

ただし、従来の正書法がなく、140 文字という制限があるため、このセットはツイートで POS タグ付けを実行するのには適していません (Gimpel, et al., 2011) 。Gimpel は、いくつかの特定の機能を含む独自のタグセットを使用して、Twitter の POS タグ付けを実装しました。これらの機能は、ツイートに対するタグ付けの一貫性を保証し (Gimpel, et al., 2011)、以下にリストされています。

Twitter 正書法: @ の検出用

メンション、ハッシュタグ、URL 名前 (大文字のトークンが多い): ツイートを書く際に合意がないため、ユーザーは大文字をさまざまな方法で使用できます。

Metaph (音声正規化): 単語の多くの代替スペルを正規化します。例: {thanks, thankss, thnx,...} は「thank」という単語を表します 彼らのタガーは条件付きランダム フィールド (CRF) です (Lafferty, McCallum, & Pereira, 2001)

. CRF は、パターン認識と機械学習のための統計手法のクラスです。CRF と他の分類子の主な違いは、CRF はコンテキストも考慮しますが、他の分類子はコンテキストを考慮しないことです。

CRF から派生したこの特性とタグセットの機能強化により、Twitter ドメインへのタガーの適応性が向上したため、実験ではスタンフォード ツリーのタガーと比較してより高い精度を達成しました (89.39% と 85.85% の比較)。

このアプローチが現在の方法よりも優れているという事実を認めても、実質的な課題は依然として残っています。つまり、非標準の大文字化から固有名詞への誤分類、またはあいまいな記号を含むまれなトークンからその他のカテゴリへの誤分類です。(ギンペル他、2011)

参照:ツイートに対する感情分析のための NaturalLanguage 処理技術の評価

于 2013-04-09T08:22:08.150 に答える