私は、金融ニュース記事のヘッダーを正と負のクラスに分割しようとする小さな研究プロジェクトを行っています。分類には、SVM アプローチを使用しています。多くの機能を生成できないことが主な問題です。 ML用。ニュース記事には、多くの名前付きエンティティやその他の「ゴミ」要素が含まれています (もちろん、私の観点からは)。
ML トレーニングに使用できる ML 機能を提案してください。現在の結果: 精度 =0.6、再現率 =0.8
ありがとう
私は、金融ニュース記事のヘッダーを正と負のクラスに分割しようとする小さな研究プロジェクトを行っています。分類には、SVM アプローチを使用しています。多くの機能を生成できないことが主な問題です。 ML用。ニュース記事には、多くの名前付きエンティティやその他の「ゴミ」要素が含まれています (もちろん、私の観点からは)。
ML トレーニングに使用できる ML 機能を提案してください。現在の結果: 精度 =0.6、再現率 =0.8
ありがとう
タスクはまったく簡単ではありません。
簡単な方法は、トレーニング セットを検索または作成することです。これは、ポジティブなニュースを含む一連のヘッダーと、ネガティブなニュースを含む一連のヘッダーです。トレーニング セットを TF/IDF 表現に変換してから、線形 SVM をトレーニングして 2 つのクラスを分離します。トレーニング セットの品質とサイズによっては、まともな結果を得ることができます。0.7 の損益分岐点についてはわかりません。
次に、より良い結果を得るには、NLP アプローチを採用する必要があります。品詞タガーを使用して形容詞 (自明) を識別し、SentiWordNet などのセンチメント DB を使用してそれらをスコアリングしてみてください。
Bo Pang と Lillian Lee による感情分析に関する優れた概要があります。
これらの機能はどうですか?
実際の記事へのアクセスが許可されている場合は、実際の記事の表面的な特徴 (記事の全長や、おそらくその記事に対する回答数や反対のレベルなど) を使用できます。Ogden の 850 基本英語辞書など、他の多くの辞書をオンラインで調べて、悪い/良い記事がそれらから多くの単語を抽出する可能性があるかどうかを確認することもできます。この目的のために有用な機能の長いリスト (たとえば 100 個の機能) を作成するのは難しいように思われることに同意します。
iliasfl そうです、これは簡単な作業ではありません。
単語の袋のアプローチを使用しますが、最初に POS タガーを使用して、見出しの各単語にタグを付けます。次に、名前付きエンティティをすべて削除できます。これは、ご指摘のとおり、感情には影響しません。他の単語は(データセットが十分に大きい場合) 頻繁に出現し、肯定的または否定的に分極化されないようにする必要があります。
さらに一歩進んで、まだ詳しくない場合は、タグ付けされたデータから形容詞と動詞のみを選択することもできます。これらは、感情や気分を伝える傾向がある単語だからです。
私はあなたの精度と再現率の数値にがっかりすることはありません.0.8以上のF値は実際にはかなり良いです.