php - ウェブサイトのディレクトリでファイルを見つける方法は?

Question

Web クローラーを作成しています。URL を指定すると、ディレクトリとサブディレクトリをスキャンして .html ファイルを探します。私は2つの選択肢を見てきました：

scandir($url). これはローカルファイルでは機能しますが、http サイトでは機能しません。これはファイルのパーミッションが原因ですか? 誰もがあなたのウェブサイトのファイルにアクセスするのは危険なので、うまくいかないはずです.
リンクを検索してフォローする。インデックスファイルで file_get_contents を実行し、リンクを見つけて、それらを .html ファイルにたどることができます。

これら2つの機能のいずれかが機能しますか、または3番目の代替手段はありますか?

score 1 · Accepted Answer

の使用を検討していwgetますか？Web サイトをクロールし、特定の拡張子を持つファイルのみをダウンロードできます。

score 1 · Accepted Answer

html ファイルを探す唯一の方法は、サーバーから返されたファイルの内容を解析することです。サーバーでディレクトリの参照を有効にしている場合を除きます。これは通常、最初に無効にするものの 1 つであり、ディレクトリを参照するアクセス権がありません。リスト、表示する準備ができており、使用できるコンテンツのみ。

http://www.mysite.comを起動して、html ファイルへのリンクをスキャンする必要がありますが、html コンテンツを返す asp/php やその他のファイルがある場合はどうでしょうか。

php - ウェブサイトのディレクトリでファイルを見つける方法は?

2 に答える 2

Related

Reference