私たちのアプリケーションでは、Heritrix がクロール エンジンとして使用されており、クロール ジョブが完了すると、エンドポイントを手動で開始して Web サイトから PDF をダウンロードします。クロール ジョブが完了したらすぐに、この PDF のダウンロード タスクを自動化したいと考えています。HEritrix は、ジョブのステータスを返す URI/webservice メソッドを提供しますか? (または) ジョブのステータスを継続的に監視するために、ポーリング アプリを作成する必要がありますか?
質問する
225 次
1 に答える
0
継続的な監視なしでそれを行うオプションがあるかどうかはわかりませんが、Heritrix APIを使用してジョブのステータスを取得できます。
curl -v -d "action=" -k -u admin:admin --anyauth --location -H "Accept: application/xml" https://localhost:8443/engine/job/myjob
ジョブのステータスを読み取ることができる XML を提供します。
もう 1 つの、おそらくより簡単な (まだ「専門的」ではない) オプションは、ジョブの warcs ディレクトリに .open 拡張子のファイルが含まれているかどうかを確認することです。そうでない場合 - 仕事は終了です。
于 2016-02-09T05:27:50.937 に答える