私は現在、ニュース記事を収集して分類するプロジェクトを行っていますが、収集されたすべての記事の小さなサブセット(たとえば、スポーツ関連のニュース)にのみ関心があります。
機械学習とテキスト分類は初めてです。タイトルや実際の内容に基づいて記事を分類する必要がありますか?人間は通常、タイトルを見ただけで、ニュース記事が関連性があるかどうかをかなりの自信を持って知ることができます。したがって、コンテンツではなくタイトルを使用すると、自動テキスト分類で同等以上の精度が得られるのではないかと思います。
この問題の理由は、プログラムがURLからすべてのページを取得してからコンテンツを分析するのではなく、リンクを見つけたときに最初にタイトルを分析すると、全体的なパフォーマンスが大幅に向上するためです。