さまざまな Web サイトからデータを取得しようとしています。スタック オーバーフローを検索した後、多くの人がこれを示唆したように、crawler4j を使用しています。以下は私の理解/設計です:
1. Get sitemap.xml from robots.txt.
2. If sitemap.xml is not available in robots.txt, look for sitemap.xml directly.
3. Now, get the list of all URL's from sitemap.xml
4. Now, fetch the content for all above URL's
5. If sitemap.xml is also not available, then scan entire website.
それでは、教えてください。クローラー4Jはステップ1、2、3を実行できますか??? もっと良いデザインが利用できることを提案してください (フィードが利用できないと仮定して) もしそうなら、どうすればよいか教えてください。
ありがとうベンカット