特定のキーワードを含む Web ページを探して Web を継続的にクロールする Web クローラーを作成しようとしています。これには多くのオープン ソース ソリューション (Nutch、Scrapy など) がありますが、「豊富な」ソースを優先できるインテリジェントなソリューションが必要です。
ボットを特定のページ fe http://www.dmoz.orgから開始し、すべてのリンクを抽出してスクレイピングを続けます。ページに特定のキーワード fe 'foo' が含まれている場合、この URL をデータベースに送信する必要があります。
さて、ここからが難しい部分です。このようなボットを作成して実行すると、スパイダーが Web 全体をクロールするため、指定されたキーワードを含む新しいページを見つけるまでに時間がかかることがあります。スパイダーがキーワードを頻繁に見つけるドメインを特定できれば、プロセスは劇的に速くなり、より頻繁にクロールできるようになります。
これに対するオープンソースのソリューションはありますか?
これまで、Nutch と Scrapy を見てきました。Nutch は私が必要としているものには最適なオプションのようですが、私は Java の経験がなく、この問題に関する特定のドキュメントを見つけることができません。