サイト全体のソース コードをダウンロードする単純な Web クローラーを自分のサイトで実行しました。
Web クローラーがサイトから PHP コードをダウンロード/保存するのを防ぐことは可能ですか? 暗号化がなければ、robots.txt に単純な禁止ルールがありますか?それとも Web クローラーは通常、Web サイトのソース コード全体をダウンロードできますか?
サイト全体のソース コードをダウンロードする単純な Web クローラーを自分のサイトで実行しました。
Web クローラーがサイトから PHP コードをダウンロード/保存するのを防ぐことは可能ですか? 暗号化がなければ、robots.txt に単純な禁止ルールがありますか?それとも Web クローラーは通常、Web サイトのソース コード全体をダウンロードできますか?
Web 上の場所からページにアクセスしている限り、問題はありません。混乱している人のために説明すると、質問者は独自のクローラーを実行しているようで、ローカル アドレスを取得しているため、ローカルでファイルを取得しています。
そのため、ソース コードがクロールされないように、http 経由でアクセスしていることを確認してください。
特にコードについては、関数を再帰する前に、URLがドメインから絶対的であること(http://domain.tldで始まる)を再度確認し、そうでない場合はそのようにします(単純に追加しても機能しません)サイトに相対 URL がある場合は、より複雑になります。PHP で相対 URL を絶対 URL に変更することを検討してください。)
Web クローラーは、サイトの html コンテンツのみをダウンロードします。PHPスクリプトには一切アクセスできません。
ファイルに拡張機能があることを確認すると.php
、サイトが提供するときに PHP ソース コードがレンダリングされ、ロボットはソースをダウンロードできなくなります。サイトにアクセスする他のすべての人と同じように、PHP が生成する HTML が表示されるだけです。