web-crawler - ディレクティブ robots.txt の作成

Question

クロールしたいリンクのリストがあります。クローラーが自分で見つけた他のすべてのリンクをクロールしないようにしたいと思います
。

私が調べた方向：サイトマップに存在するものを期待するすべてのページを禁止するrobots.txtを作成します。このようなファイルを作成する方法についての情報を見ました。
Allow: /folder1/myfile.html Disallow: /folder1/

しかし、クロールしたいリンクは特定のフォルダーにありません。実際にはサイトマップであるヒューファイルを彼に作成することはできますが、それは合理的ではないようです。あなたは何をお勧めします？

score 1 · Accepted Answer

Robots Exclusion Protocolは、URL 指定機能が制限されています。公開されている robots.txt ファイルの最大サイズについては知りませんが、通常、それほど大きくなるとは予想されません。これはクローラーへの推奨であって、絶対的なものではありません。

robots.txt でサイトマップを参照することを検討してください。robots.txtのウィキペディアのページでは、この機能について言及しています。これは、サイトマップをサポートするクローラーに、インデックスを作成する特定の URL を示唆します。ただし、これらのページのリンクをたどっていると思われるので、クロールしたくない内部リンクを明確に禁止する必要があります。

繰り返しますが、それは単なる要求または推奨事項です。クローラーは、robots.txt に従う義務はありません。

score 0 · Accepted Answer

許可しないファイルがサイト内に散らばっており、Google、Microsoft、および他のいくつかのクローラーがサポートしている単純なワイルドカードで表現できる特定の命名パターンに従っていない場合、他の唯一のオプションは具体的にそれぞれをリストすることですDisallowrobots.txtの別のディレクティブにファイルします。おっしゃる通り、大変な作業です。

クローラーがそれらのページにアクセスするのを防ぐことが重要な場合は、それぞれを個別にリストするか、サイトを再配置して、クロールしたくないファイルを簡単にブロックできるようにします。

score 0 · Accepted Answer

時間やエネルギーに余裕がある場合は、Web サイトをフォルダで整理することは、長期的には非常に役立ちます。

robots.txt に関する限り、許可されていないファイルまたはフォルダーをリストすることは問題ありませんが、多数の場合は時間がかかる可能性があります。ちなみに、robots.txt には許可されていないフィールドしかないため、別の方法で発見されない限り、すべてが許可されます。

以下を参照してください: http://en.wikipedia.org/wiki/Robots_exclusion_standardの下部で、明示的な禁止リストではなく、サイトマップの使用について説明しています。

web-crawler - ディレクティブ robots.txt の作成

3 に答える 3

Related

Reference