私は約 500 の事前に分類された記事のコーパスを持っています。各カテゴリで最も一般的に使用される名詞と形容詞を取り上げ、関連性によって並べ替えました。
各カテゴリ (世界、ビジネス、テクノロジー、エンターテイメント、科学、健康、スポーツ) には、数百の単語が関連付けられています。
この記事に問題があります: http://www.techhive.com/article/2052311/hands-on-with-the-2ds-an-entry-level-investment.html
ゲームについてです。「ゲーム、プレーヤーなど」などの単語は、私が見た記事に基づいて、スポーツと密接に関連しています。
この記事のスコアは次のとおりです。
{u'business': 51, u'entertainment': 58, u'science': 48, u'sports': 62, u'health': 35, u'world': 48, u'technology': 59}
ご覧のとおり、テクノロジーは 59 でトップですが、62 でスポーツに追い抜かれています。
コーパスを数千の記事に増やせば、この問題は解決するのではないかと期待していますが、可能性が高いかどうかはわかりません。
この問題を解決するためのあなたのアイデアは何ですか?
「Twitter、Facebook、Technology、Nintendo など」のような景品用の単語のリストを作成することを考えました。これにより、記事が存在する場合に自動的に Technology に分類されます。唯一の問題は、これを行うための言葉を見つけることと、ビジネス/世界などとの衝突を避けることです.
ありがとう。