私はクロールする Web クローラーと Web 全体を持っています。私の戦略は何ですか?どのような分類アルゴリズムを使用すればよいですか?
私は Web クローラーを持っていると言っています。つまり、Web を手動でクロールするということです。
私はクロールする Web クローラーと Web 全体を持っています。私の戦略は何ですか?どのような分類アルゴリズムを使用すればよいですか?
私は Web クローラーを持っていると言っています。つまり、Web を手動でクロールするということです。
クロールする各ページを試して分類し、それがレストランかどうかを判断し (二項分類器)、教師あり学習を使用できます。
これにはBag of Words モデルを使用できます。つまり、単語を「機能」として使用し、その存在 (および出現回数) によって機能の値が決まります。
また、最初に一連のページに手動でラベルを付け、それらがレストランのページかどうかを判断する必要があります. 生成するデータはトレーニング セットと呼ばれます。
バッグ オブ ワード モデルは巨大な特徴空間を持つ傾向があることに注意してください。
後で交差検証を使用して、モデルの精度を推定できます。
バッグ オブ ワード モデルを使用してデータを分類する際に役立つと思われるいくつかの提案を次に示します。