1

URLを見つけるための単純な正規表現を作成し、そのサイトがデータを送り返すかどうかを確認するための別のスクリプトを作成する方がはるかに簡単でしょうか?私はいつも、これが「完璧な」URL検出正規表現を開発するのに何年もかかるよりも速くて簡単な解決策であり、数日後にそれを粉砕するのではないかと思っていました。

誰かが基本的なページアクセス/ロードの速度テストを見つけることができたら、私の質問に答えるためにここに投稿してください。

また、サーバー上でこのような要求を絶えず行うのはどれほど難しいでしょうか。たとえば、1時間に100回ですか。

これをJavascriptでテストし、正規表現として使用/(http|www\.)\S+/gimし、要求されたURLへの60秒のタイムアウト接続を使用します。URLから簡単な「タイトルグラブ」を実行してから、試用にかかる時間を記録します。速度がすべて気になったら、速度を投稿します。

これはもうそれほど問題ではないので、上記のアイデアで本当に役立つものを見つけた場合は、この「質問」に対して栄光の回答チェックマークを受け取る可能性があります。

4

1 に答える 1

2

@Kobi が指摘していたのは、URL の有効性はその URL にリソースが存在することとは異なるということだと思います。有効な URL が現在のリソースを指していない場合があります。たとえば、URL http://bclennox.com/there-is-no-page-at-this-addressは 404 を返し、完全に有効な URL であってもテストに失敗する可能性があります。

とにかく、特定の URL に対して返される HTTP ステータスに主に関心がある場合は、通常の GET ではなく、HTTP HEAD リクエストを発行するだけで済みます。HEAD は、はるかに小さいペイロード (ヘッダーのみ) を返すため、リクエストが大幅に高速化されます。

を使用した例を次に示しcurlます。

$ curl -I http://bclennox.com
HTTP/1.1 200 OK
Date: Thu, 15 Mar 2012 03:14:59 GMT
Server: Apache
X-Powered-By: Phusion Passenger (mod_rails/mod_rack) 3.0.9, Enterprise Edition
ETag: "39cf7d1099a034de95dda297b18bfa2d"
X-UA-Compatible: IE=Edge,chrome=1
X-Rack-Cache: miss
X-Runtime: 0.139410
X-Request-Id: 50ce319e403ef4e6e468c2f4b9817691
Cache-Control: max-age=0, private, must-revalidate
Set-Cookie: _master_session=BAh7ByIQX2NzcmZfdG9rZW4iMWZhM0t1dTZiNjVWV1Q3YzlKVTZmdjRwK0FiWlpHUExVWXJnRlovd2R5aU09Ig9zZXNzaW9uX2lkIiU3YWEzZmNhYmYzYTQ2MDgwNTY5ZmU5MjhlNWU3ZDhmMA%3D%3D--c0f8c2bd6cccb1ff12f28da996dddbb50e448f1f; path=/; HttpOnly
Status: 200
Content-Type: text/html; charset=utf-8
于 2012-03-15T03:18:27.630 に答える