Web クローラーを作成しています。URL を指定すると、ディレクトリとサブディレクトリをスキャンして .html ファイルを探します。私は2つの選択肢を見てきました:
scandir($url)
. これはローカル ファイルでは機能しますが、http サイトでは機能しません。これはファイルのパーミッションが原因ですか? 誰もがあなたのウェブサイトのファイルにアクセスするのは危険なので、うまくいかないはずです.リンクを検索してフォローする。インデックス ファイルで file_get_contents を実行し、リンクを見つけて、それらを .html ファイルにたどることができます。
これら2つの機能のいずれかが機能しますか、または3番目の代替手段はありますか?