クロールしたいリンクのリストがあります。クローラーが自分で見つけた他のすべてのリンクをクロールしないようにしたいと思います
。
私が調べた方向:サイトマップに存在するものを期待するすべてのページを禁止するrobots.txtを作成します。このようなファイルを作成する方法についての情報を見ました。
Allow: /folder1/myfile.html
Disallow: /folder1/
しかし、クロールしたいリンクは特定のフォルダーにありません。実際にはサイト マップであるヒュー ファイルを彼に作成することはできますが、それは合理的ではないようです。あなたは何をお勧めします?