私は最近、私が働いている会社で Web クローラー Heritrix を使用していますが、しばらく検索してテストした後、ニーズを解決する方法が見つかりません。
cron でヘリトリクスを毎日自動的に実行して、Web ページのリストをクロールし、その Web のリンクがドメイン リストの Web を指しているかどうかを確認します。困難な部分と方法が見つからないのは、ドメインの 1 つを指すリンクへのすべてのトレースをログに記録することです。
ジョブのログ ファイルにはすべてのリンクがいくつかの情報と共に保存されますが、トレースは保存されません。たとえば、ジョブが完了したときにスクリプトを実行して、リスト内のドメインである brazzers を grep するため、クロール ログで「brazzers」が見つかった場合、最初から最後までのトレース全体を別のログに結果として表示する必要があります。
2015-10-25T20:18:58.369Z 200 91 http://cdn1.ads.brazzers.com/robots.txt XLEP http://cdn1.ads.brazzers.com/text/plain #021 20151025201857643+726 sha1: CPA63O5POU3CVLCH3VDDIMBJCCWRVLPC - -
これを行うことは可能ですか?それとも他の方法ですか? このようなことで非常に愚かに感じ、私はプログラミングがあまり得意ではありません
事前にどうもありがとうございました
エンリケ。