0

Web クローラーを作成しています。URL を指定すると、ディレクトリとサブディレクトリをスキャンして .html ファイルを探します。私は2つの選択肢を見てきました:

  1. scandir($url). これはローカル ファイルでは機能しますが、http サイトでは機能しません。これはファイルのパーミッションが原因ですか? 誰もがあなたのウェブサイトのファイルにアクセスするのは危険なので、うまくいかないはずです.

  2. リンクを検索してフォローする。インデックス ファイルで file_get_contents を実行し、リンクを見つけて、それらを .html ファイルにたどることができます。

これら2つの機能のいずれかが機能しますか、または3番目の代替手段はありますか?

4

2 に答える 2

1

の使用を検討していwgetますか?Web サイトをクロールし、特定の拡張子を持つファイルのみをダウンロードできます。

于 2012-04-05T09:41:00.817 に答える
1

html ファイルを探す唯一の方法は、サーバーから返されたファイルの内容を解析することです。サーバーでディレクトリの参照を有効にしている場合を除きます。これは通常、最初に無効にするものの 1 つであり、ディレクトリを参照するアクセス権がありません。リスト、表示する準備ができており、使用できるコンテンツのみ。

http://www.mysite.comを起動して、html ファイルへのリンクをスキャンする必要がありますが、html コンテンツを返す asp/php やその他のファイルがある場合はどうでしょうか。

于 2012-04-05T09:39:15.937 に答える