どの URL をクロールするかを制御できる十分な柔軟性を提供するビルド済みの Web クローラーを使用したい Java プロジェクトがあり、クローラーが出力を取得したら、それを配置する場所を制御したい (独自のスキーマを使用した cassandra)。
全体像は、URL のリスト (Google および Bing 検索) をフィードしてから、返された URL をフィルター処理することです。次に、フィルタリングされた URL をクロールするようにします (URL クエリ文字列を変更したい場合がありますが、それは難しい要件ではありません)。結果のhtmlを取得し、Tikaを使用して解析し、データを引き出して保存したいと思います。
私は Apache Droids を見ています。これは、私が言及したすべてのことを実行しているように見えるのでぴったりですが、実際のドキュメントはありません。私はNutchまたはHeritrixを検討しますが、ユースケースはより完全なソリューションのようであり、スキミングの後、やりたいことを行う方法について話しているものは何も見当たりません.
誰もこの種の経験がありますか?ほとんどの場合、いくつかの推奨事項が必要ですが、この種のことを行う例を知っていれば、それもいいでしょう。私はまだ Java にかなり慣れていないからです。