-6

私はクロールする Web クローラーと Web 全体を持っています。私の戦略は何ですか?どのような分類アルゴリズムを使用すればよいですか?

私は Web クローラーを持っていると言っています。つまり、Web を手動でクロールするということです。

4

1 に答える 1

2

クロールする各ページを試して分類し、それがレストランかどうかを判断し (二項分類器)、教師あり学習を使用できます。

これにはBag of Words モデルを使用できます。つまり、単語を「機能」として使用し、その存在 (および出現回数) によって機能の値が決まります。

また、最初に一連のページに手動でラベルを付け、それらがレストランのページかどうかを判断する必要があります. 生成するデータはトレーニング セットと呼ばれます。

バッグ オブ ワード モデルは巨大な特徴空間を持つ傾向があることに注意してください。

後で交差検証を使用して、モデルの精度を推定できます。

バッグ オブ ワード モデルを使用してデータを分類する際に役立つと思われるいくつかの提案を次に示します。

  • SVMは非常に便利で、Bag of Words モデルに対して非常に優れた結果をもたらす傾向があります。線形カーネルとガウス カーネルのパフォーマンスに有意差は見られませんでした。
  • ステミングとフィルタストップ ワードを使用します。それが生成するノイズは必要ありません。
  • バイグラムを使用してください。それらは非常に有益であり、少なくとも私にとっては、分類器の精度を大幅に向上させる傾向があります。
于 2013-01-16T21:26:46.430 に答える