2

現在管理しているサイト内のファイルへの何千もの直接リンクをチェックする簡単なリンク チェッカーを作成しています。すべてのファイルは archive_org からのものです。テキストエリアを作りました

<table width="100%"> <tr><td>URLs to check:</td><td><textarea name="myurl" id="myurl" cols="100" rows="20"></textarea></td></tr> 
<tr><td align="center" colspan="2"><br/><input class="text" type="submit" name="submitBtn" value="Check links"></td></tr> </table>

その上のすべてのリンクは $url という配列に格納されます (各 URL は新しい行に配置されます)

$url = explode("\n", $_POST['myurl']);

print_r を使用して印刷したところ、配列内のリンクは、文字を追加せずに入力したものと同じです。

fopen() と curl 関数の 2 つの方法を使用して URL を確認しました。いくつのリンクを配置しても、プログラムは最後のリンクを除いてすべてのリンクが壊れていることを確認します。配列内の最後のリンクだけが正しくチェックされます。

get_headers 関数を使用したところ、すべてのリンク (最後のリンクを除く) の末尾にアンダースコア (_) が追加されていることに気付きました。get_headers コードは次のとおりです。

for ($i=0;$i<count($url);$i++) {
   $headers = @get_headers($url[$i]);
   $headers = (is_array($headers)) ? implode( "\n ", $headers) : $headers;
   print_r($headers);
   echo "<br /><br />";   
    }

ヘッダーでは、リンクが次のようになっていることに気付きました。

HTTP/1.0 302 一時的に移動 サーバー: nginx/1.1.19 日付: 2013 年 9 月 2 日月曜日 10:46:40 GMT コンテンツ タイプ: text/html; charset=UTF-8 X-Powered-By: PHP/5.3.10-1ubuntu3.2 Accept-Ranges: バイト 場所: http://ia600308.us.archive[dot]org/23/items/historyofthedecl00731gut/1dfre012103.mp3_ X-Cache: Dataprolinks からの MISS X-Cache: AIMAN-DPL からの MISS X-Cache-Lookup: AIMAN-DPL からの MISS:3128 接続: HTTP/1.0 404 を閉じます サーバー: nginx/1.1.19 日付: 月、02 2013 年 9 月 10:46:41 GMT コンテンツ タイプ: text/html; charset=UTF-8 X-Powered-By: PHP/5.3.10-1ubuntu3.2 Set-Cookie: PHPSESSID=s2j3ct95vdji0ua89f32grd984; パス=/; domain=.archive.org 有効期限: 1981 年 11 月 19 日木曜日 08:52:00 GMT cache X-Cache: Dataprolinks からの MISS X-Cache: AIMAN-DPL からの MISS X-Cache-Lookup:

リンクにはアンダースコアが追加されていますが、最後の URL のヘッダーを除き、アンダースコアは追加されていません。このアンダースコアがチェックエラーの原因だと思います。

どこで間違いを犯していますか?

4

1 に答える 1

3

あなたの場合、「ENTER」キーを押してリンクを区切ると、 WindowsにURLをPOSTすると思います。「ENTER」「\ r\n」です。WWW では、 "\r"を含めてはならないため、どこか (php? curl? 私にはわかりません) で"_"に変換します。

<?php

$urls = array();
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre011103.mp3';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre000103.txt';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre082103.mp3';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre001103.txt';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre141103.mp3';

print("<pre>" .print_r($urls, 1). "</pre><br /><br />");

foreach($urls as $url){
    //ensure each url only start with ONE _ and end with ONE _
    print("<pre>_" . $url . "_</pre>");
    $header = array();
    $headers = @get_headers($url);
    print("<pre>" .print_r($headers, 1). "</pre><br /><br />");
}

?>

私のコードを使用して簡単なテストを行うことができます。各リンクは、開始と終了の両方に「_」が表示されます。次に、私の説明を証明します。修正方法: を追加して"\r""\n"strip_tags(nl2br($url))を削除します。

単純な結果

于 2013-09-02T11:45:50.840 に答える