一部のWebページを解析してWebサイトの種類にタグを付けるための信頼できる/展開されたアプローチ、アルゴリズム、またはツールはありますか?
例: フォーラム、ブログ、プレスリリース サイト、ニュース、E-Comm など。
これを判断できる、明確に定義された特性 (静的ルール) を探しています。そうでない場合は、機械学習モデルが役立つことを願っています。
提案/アイデア?
一部のWebページを解析してWebサイトの種類にタグを付けるための信頼できる/展開されたアプローチ、アルゴリズム、またはツールはありますか?
例: フォーラム、ブログ、プレスリリース サイト、ニュース、E-Comm など。
これを判断できる、明確に定義された特性 (静的ルール) を探しています。そうでない場合は、機械学習モデルが役立つことを願っています。
提案/アイデア?
機械学習の観点からこれにアプローチする場合、単純ベイズ分類器はおそらく最大の作業/ペイオフ比を持っています。それのバージョンは、ニュース記事を分類するためにWinnowで使用されます。
それぞれが適切なカテゴリでタグ付けされたページのコレクションが必要になります。次に、各ページから単語やその他の関連要素を抽出し、それらを機能として使用します
Dr.Dobbs にNaive Bayes の実装に関する記事があります
ナイーブ ベイズ アプローチを追求することに興味がある場合 (結局のところ、他の機械学習オプションもあります)、次のドキュメントをお勧めします。ウィッテンとフランク:
http://www.coli.uni-sb.de/~crocker/Teaching/Connectionist/lecture10_4up.pdf