2

私は、金融ニュース記事のヘッダーを正と負のクラスに分割しようとする小さな研究プロジェクトを行っています。分類には、SVM アプローチを使用しています。多くの機能を生成できないことが主な問題です。 ML用。ニュース記事には、多くの名前付きエンティティやその他の「ゴミ」要素が含まれています (もちろん、私の観点からは)。

ML トレーニングに使用できる ML 機能を提案してください。現在の結果: 精度 =0.6、再現率 =0.8

ありがとう

4

3 に答える 3

2

タスクはまったく簡単ではありません。

簡単な方法は、トレーニング セットを検索または作成することです。これは、ポジティブなニュースを含む一連のヘッダーと、ネガティブなニュースを含む一連のヘッダーです。トレーニング セットを TF/IDF 表現に変換してから、線形 SVM をトレーニングして 2 つのクラスを分離します。トレーニング セットの品質とサイズによっては、まともな結果を得ることができます。0.7 の損益分岐点についてはわかりません。

次に、より良い結果を得るには、NLP アプローチを採用する必要があります。品詞タガーを使用して形容詞 (自明) を識別し、SentiWordNet などのセンチメント DB を使用してそれらをスコアリングしてみてください。

Bo Pang と Lillian Lee による感情分析に関する優れた概要があります。

于 2012-07-17T23:28:04.627 に答える
1

これらの機能はどうですか?

  1. 単語での記事ヘッダーの長さ
  2. 平均語長
  3. "悪い" 単語の辞書の単語数。このディクショナリを自分で生成する必要がある場合があります。
  4. 文中の総単語数に対する辞書中の単語数の比率
  5. 3 に似ていますが、「優れた」単語辞書の単語数です。
  6. 5 に似ていますが、「良い」単語辞書を使用します
  7. 記事の公開時間
  8. 記事の公開日
  9. 公開されたメディア (主観的な分類を行う必要があります)
  10. 感嘆符などの特定の句読点の数

実際の記事へのアクセスが許可されている場合は、実際の記事の表面的な特徴 (記事の全長や、おそらくその記事に対する回答数や反対のレベルなど) を使用できます。Ogden の 850 基本英語辞書など、他の多くの辞書をオンラインで調べて、悪い/良い記事がそれらから多くの単語を抽出する可能性があるかどうかを確認することもできます。この目的のために有用な機能の長いリスト (たとえば 100 個の機能) を作成するのは難しいように思われることに同意します。

于 2012-07-17T17:20:45.923 に答える
0

iliasfl そうです、これは簡単な作業ではありません。

単語の袋のアプローチを使用しますが、最初に POS タガーを使用して、見出しの各単語にタグを付けます。次に、名前付きエンティティをすべて削除できます。これは、ご指摘のとおり、感情には影響しません。他の単語(データセットが十分に大きい場合) 頻繁に出現し、肯定的または否定的に分極化されないようにする必要があります。

さらに一歩進んで、まだ詳しくない場合は、タグ付けされたデータから形容詞と動詞のみを選択することもできます。これらは、感情や気分を伝える傾向がある単語だからです。

私はあなたの精度と再現率の数値にがっかりすることはありません.0.8以上のF値は実際にはかなり良いです.

于 2012-07-18T16:55:29.187 に答える