1

私は約 500 の事前に分類された記事のコーパスを持っています。各カテゴリで最も一般的に使用される名詞と形容詞を取り上げ、関連性によって並べ替えました。

各カテゴリ (世界、ビジネス、テクノロジー、エンターテイメント、科学、健康、スポーツ) には、数百の単語が関連付けられています。

この記事に問題があります: http://www.techhive.com/article/2052311/hands-on-with-the-2ds-an-entry-level-investment.html

ゲームについてです。「ゲーム、プレーヤーなど」などの単語は、私が見た記事に基づいて、スポーツと密接に関連しています。

この記事のスコアは次のとおりです。

{u'business': 51, u'entertainment': 58, u'science': 48, u'sports': 62, u'health': 35, u'world': 48, u'technology': 59}

ご覧のとおり、テクノロジーは 59 でトップですが、62 でスポーツに追い抜かれています。

コーパスを数千の記事に増やせば、この問題は解決するのではないかと期待していますが、可能性が高いかどうかはわかりません。

この問題を解決するためのあなたのアイデアは何ですか?

「Twitter、Facebook、Technology、Nintendo など」のような景品用の単語のリストを作成することを考えました。これにより、記事が存在する場合に自動的に Technology に分類されます。唯一の問題は、これを行うための言葉を見つけることと、ビジネス/世界などとの衝突を避けることです.

ありがとう。

4

1 に答える 1

0

ゲームのカテゴリは、狩猟、戦争通信、ペンと紙の RPG でぼやける必要があります... - ゲーム版があるものなら何でも。

あなたは事実とフィクションを区別しようとしていると思います。あなたが提案したものから私が導き出したアイデアは、図書館のフィクションセクションと事実セクションをつかみ、それらをキーワードの短いリストと長いリストに減らすことです.

ed: これは私が発見したばかりですが、Disco などの map-reduce フレームワークからの単語頻度分析である典型的な「hello world」の例では、次のいずれかであることがわかっている一連の URL を簡単に指すことができるはずです。事実かそれともつくり話か。タプルの 2 つのリストが必要であり、これらをフィルタリングして、事実またはフィクションについて最も確実に語っているキーワードに絞り込むことができます。

于 2013-10-28T14:30:10.453 に答える