TamperMonkey/Javascript/jQuery を使用して、単一のサイトから小さなデータ セットを「スパイダー」し、それを単一のページに照合しようとしています。
次のことを行う TM スクリプト (ターゲット ページを開くと起動する) を作成しました。
- 特定の種類のリンクをページで検索します (通常は約 8 つのリンク)。
- 見つかった各リンクを新しいページに「たどる」、そこから 1 つのリンクを見つけてたどる
- 気になるデータを抽出し、開いたオリジナルページに「組み込む」。
これらのアクションを繰り返すと、通常、サイトで 16 (8 * 2 リンク) の HTTP 要求が発行されます。私が書いたコードは、(コンソール経由で) 手動で呼び出して、16 個のデータすべてに対して 1 ステップでアクションを実行すると、正常に動作します。
ただし、ループを設定してコードに「それを実行」させると、約4回の繰り返しの後、要求されたページがHTML に応答していません (Status=OK) というメッセージが表示されます。このサイトはある種の XSRF 攻撃から自分自身を保護していると思いますか、それとも本当に遅いだけですか?
私の質問は、サイトからデータを要求しているレートを下げるための好ましい手法は何ですか? 処理する HTTP 関数呼び出しまたは URL の配列を構築することを検討しましたが、これは扱いにくいように思えます。他に利用できる慣用句はありますか?
これは非常に一般的な問題であり、確実な解決策が存在するに違いないと推測していますが、適切に検索するための用語を十分に把握していません.