私は単純なWeb スパイダーを作成していますが、ドメイン上のすべての Web ページを取得できる PHP コードでトリガーできる方法があるかどうか疑問に思っていました...
たとえば、Stackoverflow.com のすべての Web ページを取得したいとします。つまり、次 の ようになります。 https://stackoverflow.com/questions/1234214/ 最高の Rails HTML パーサー
そしてすべてのリンク。どうすればそれを手に入れることができますか。または、それを取得できるAPIまたはDIRECTORYはありますか?
また、すべてのサブドメインを取得する方法はありますか?
ところで、クローラーはSiteMapsやSyndication フィードを持たない Web サイトをどのようにクロールしますか?
乾杯。