0

ドメインの下にあるすべての URL を取得したい。
彼らの robots.txt を見たとき。一部のフォルダーはロボット用ではないことを明確に述べていますが、ロボットに開かれているすべての URL を取得する方法があるのではないかと考えています。robots.txt にサイトマップはありません。

たとえば、robots.txt には、次のような情報が含まれています。

User-agent: *
Allow: /
Disallow: /A/
Disallow: /B/
Disallow: /C/
...

しかし、ロボットが利用できるが、このブラックリストには含まれていないすべての URL に興味があります。

/contact
/welcome
/product1
/product2
...

この作業はおそらく Yahoo によって既に行われているため、この問題に対する Yahoo Query Language (YQL) ソリューションがあるかどうかについても興味があります。

ありがとう !

4

1 に答える 1