ほとんどの POS タガーは、(Marcus、Santorini、および Ann、1993 年) によって提案された Penn Treebank タグセットを使用しました。Penn Treebank タグセットには、品詞の 36 の異なるラベルが含まれています。
ただし、従来の正書法がなく、140 文字という制限があるため、このセットはツイートで POS タグ付けを実行するのには適していません (Gimpel, et al., 2011) 。Gimpel は、いくつかの特定の機能を含む独自のタグセットを使用して、Twitter の POS タグ付けを実装しました。これらの機能は、ツイートに対するタグ付けの一貫性を保証し (Gimpel, et al., 2011)、以下にリストされています。
Twitter 正書法: @ の検出用
メンション、ハッシュタグ、URL 名前 (大文字のトークンが多い): ツイートを書く際に合意がないため、ユーザーは大文字をさまざまな方法で使用できます。
Metaph (音声正規化): 単語の多くの代替スペルを正規化します。例: {thanks, thankss, thnx,...} は「thank」という単語を表します 彼らのタガーは条件付きランダム フィールド (CRF) です (Lafferty, McCallum, & Pereira, 2001)
. CRF は、パターン認識と機械学習のための統計手法のクラスです。CRF と他の分類子の主な違いは、CRF はコンテキストも考慮しますが、他の分類子はコンテキストを考慮しないことです。
CRF から派生したこの特性とタグセットの機能強化により、Twitter ドメインへのタガーの適応性が向上したため、実験ではスタンフォード ツリーのタガーと比較してより高い精度を達成しました (89.39% と 85.85% の比較)。
このアプローチが現在の方法よりも優れているという事実を認めても、実質的な課題は依然として残っています。つまり、非標準の大文字化から固有名詞への誤分類、またはあいまいな記号を含むまれなトークンからその他のカテゴリへの誤分類です。(ギンペル他、2011)
参照:ツイートに対する感情分析のための NaturalLanguage 処理技術の評価