3

多くの Web サイト (数百万) を分類しようとしています。Nutch を使用してそれらをクロールし、サイトのコンテンツを取得できますが、それらを分類するための最良の (そして最も安価な、または無料の) ツールを探しています。

1 つのオプションは、特定のキーワードを検索してサイトを分類する正規表現を作成することですが、Autonomy のようなハイエンドの LSI タイプのツールもあります。Web ページ/サイトからテキストを取得して分類するオープン ソースまたは安価なツールはありますか? 使用するカテゴリの種類をカスタマイズする必要があります。分類の一環として、実際にはページを停止しただけの「偽の」サイトや、ページに広告を掲載しているドメーナーや、ニュース、スポーツ、科学などの単純な古いカテゴリを認識できるようにしたいと考えています健康、食、娯楽etc...

4

0 に答える 0