0

私は現在、ニュース記事を収集して分類するプロジェクトを行っていますが、収集されたすべての記事の小さなサブセット(たとえば、スポーツ関連のニュース)にのみ関心があります。

機械学習とテキスト分類は初めてです。タイトルや実際の内容に基づいて記事を分類する必要がありますか?人間は通常、タイトルを見ただけで、ニュース記事が関連性があるかどうかをかなりの自信を持って知ることができます。したがって、コンテンツではなくタイトルを使用すると、自動テキスト分類で同等以上の精度が得られるのではないかと思います。

この問題の理由は、プログラムがURLからすべてのページを取得してからコンテンツを分析するのではなく、リンクを見つけたときに最初にタイトルを分析すると、全体的なパフォーマンスが大幅に向上するためです。

4

3 に答える 3

2

タイトルだけでは、記事を分類するのに十分な情報が得られない可能性があります。ただし、タイトルを分析することはできます。正確な分類ができると確信している場合は分類できますが、それ以外の場合はコンテンツを確認できます。

のようなものを取りますManchester in trouble。それがスポーツ チームであるかどうかわからない場合Manchester、その記事は経済的または政治的なものである可能性があり、おそらく他のいくつかのカテゴリの 1 つでもある可能性があります。多くのタイトルは、そのカテゴリに関連する固有名詞に精通しているため、人々によってのみ簡単に分類できると思われます。これをうまく行うようにエージェントをトレーニングするための適切なトレーニング データを取得するのは難しい可能性があります。

于 2013-01-23T07:33:34.077 に答える
1

一般的な答えはありません。使用するアルゴリズムに大きく依存します。タイトルだけから始めて、それを最大限に絞り出すことをお勧めします。それでも目的の品質を達成できない場合は、テキストをミックスに追加してみてください。

于 2013-01-23T07:35:28.050 に答える
0

記事のタイトルについて話している場合、もちろん、非常に短いテキストは含まれる情報が少ないため、分類には適していません。しかし、記事のタイトルと記事の内容の分析を組み合わせることができます。これにより、精度がわずかに向上する可能性があります。

于 2013-01-23T07:32:59.470 に答える