1

私は Weka とテキスト分類の初心者です。Web サイトの投稿のタイトルを分類するために使用したいので、Java プログラムで weka を使用しています。例えば:

「YouTube からビデオをダウンロードする方法」、「2013 年のベスト android 携帯」、「Microsoft が今年の新しいタブレットを発表」など...

スポーツ、テクノロジー、科学、健康などの 23 のカテゴリがあります。

カテゴリごとに、トレーニング テキストを取得する 5 つの Web サイトを見つけました。たとえば、engadget.com の記事のテキスト コンテンツは、Weka のカテゴリ Techonology に追加されます。

ここに問題があります。Weka にはどのようなテキストを追加すればよいですか?

今まで、私はすべてのウェブサイトの記事のタイトルを取得し、それらを単語間のスペースで分割し、単数の単語をカテゴリ (ユニグラム) に追加しました。たとえば、タイトルが「コンピューターの修理方法」である場合、これは私が行うことです。

テクノロジーに「どのように」を追加し、テクノロジーに「あります」を追加し、テクノロジーに「修正」を追加します.... (明らかに、ストップワードリストを使用して不要な単語を削除しています)。

しかし、私が得ている結果は良くありません。

あなたの経験に基づいて、私は何をすべきですか?するべきか:

a) 記事のタイトルの全文をカテゴリに追加します。b) 記事のコンテンツの全文をカテゴリに追加します。c) 記事の内容のテキストを単数の単語 (ユニグラム) に分割し、それらをカテゴリに追加します。d) 他には?

ありがとうございました。

4

0 に答える 0