私は Weka とテキスト分類の初心者です。Web サイトの投稿のタイトルを分類するために使用したいので、Java プログラムで weka を使用しています。例えば:
「YouTube からビデオをダウンロードする方法」、「2013 年のベスト android 携帯」、「Microsoft が今年の新しいタブレットを発表」など...
スポーツ、テクノロジー、科学、健康などの 23 のカテゴリがあります。
カテゴリごとに、トレーニング テキストを取得する 5 つの Web サイトを見つけました。たとえば、engadget.com の記事のテキスト コンテンツは、Weka のカテゴリ Techonology に追加されます。
ここに問題があります。Weka にはどのようなテキストを追加すればよいですか?
今まで、私はすべてのウェブサイトの記事のタイトルを取得し、それらを単語間のスペースで分割し、単数の単語をカテゴリ (ユニグラム) に追加しました。たとえば、タイトルが「コンピューターの修理方法」である場合、これは私が行うことです。
テクノロジーに「どのように」を追加し、テクノロジーに「あります」を追加し、テクノロジーに「修正」を追加します.... (明らかに、ストップワードリストを使用して不要な単語を削除しています)。
しかし、私が得ている結果は良くありません。
あなたの経験に基づいて、私は何をすべきですか?するべきか:
a) 記事のタイトルの全文をカテゴリに追加します。b) 記事のコンテンツの全文をカテゴリに追加します。c) 記事の内容のテキストを単数の単語 (ユニグラム) に分割し、それらをカテゴリに追加します。d) 他には?
ありがとうございました。