私はデータマイニングとWEKAツールの分野に完全に慣れていません(今日インストールしたばかりです)。
短いテキスト文に基づいてトピックの識別を行う必要があります。
私がいくつかのカテゴリーを持っているとしましょう:-政治-スポーツ-その他
私は次のことを考えています。テキストを比較する用語のリストを用意します。
- スポーツ:
- NFL
- NBA
- タッチダウン
- 等
- 政治:
- 選挙
- 大統領
- オバマ
- 等
また、カテゴリを追加したいと思います。
次に、WEKAの助けを借りていくつかのアルゴリズムSVMまたはナイーブベイズを適用します。
WEKAでこれを開始する方法について何かアイデアはありますか?
WEKAでいくつかのチュートリアルを検索しましたが、私がやろうとしていることに似た例を見つけることができないようです。
私を立ち上げるための助けをいただければ幸いです。