私は ML で分類アルゴリズムを試しており、スポーツ、天気、テクノロジー、サッカー、クリケットなどのさまざまなカテゴリを区別するためにモデルをトレーニングするためのコーパスを探しています。
これらのカテゴリのデータセットをどこで見つけることができるかについての指針が必要です。
私にとって別の選択肢は、ウィキペディアをクロールして 30 以上のカテゴリのデータを取得することですが、これを行うためのより良い方法があれば、ブレインストーミングと意見を求めました。
編集
これらのカテゴリのバッグ オブ ワード アプローチを使用してモデルをトレーニングします。テスト - Web ページのコンテンツに応じて、新しい/未知の Web サイトをこれらの事前定義されたカテゴリに分類します。