3

一部のWebページを解析してWebサイトの種類にタグを付けるための信頼できる/展開されたアプローチ、アルゴリズム、またはツールはありますか?

例: フォーラム、ブログ、プレスリリース サイト、ニュース、E-Comm など。

これを判断できる、明確に定義された特性 (静的ルール) を探しています。そうでない場合は、機械学習モデルが役立つことを願っています。

提案/アイデア?

4

2 に答える 2

4

機械学習の観点からこれにアプローチする場合、単純ベイズ分類器はおそらく最大の作業/ペイオフ比を持っています。それのバージョンは、ニュース記事を分類するためにWinnowで使用されます。

それぞれが適切なカテゴリでタグ付けされたページのコレクションが必要になります。次に、各ページから単語やその他の関連要素を抽出し、それらを機能として使用します

Dr.Dobbs にNaive Bayes の実装に関する記事があります

于 2011-01-10T19:31:00.170 に答える
2

ナイーブ ベイズ アプローチを追求することに興味がある場合 (結局のところ、他の機械学習オプションもあります)、次のドキュメントをお勧めします。ウィッテンとフランク:

http://www.coli.uni-sb.de/~crocker/Teaching/Connectionist/lecture10_4up.pdf

于 2011-01-20T16:39:35.673 に答える