クロールされたリンクを受け取ることができる API を提供している Google や他の会社はありますか? リンクを .txt 拡張子でフィルタリングし、場合によっては別の追加拡張子のみでフィルタリングしたいと考えています。
そうでない場合、ページをクロール/インデックス登録して、選択した拡張機能のみに絞り込むにはどうすればよいですか? また、法廷闘争に参加したくないので、robots.txt に準拠する必要がありますか? また、これらのファイルの内容をクロールするだけでも大規模なデータベースが必要になるでしょうか? DMOZ を出発点として、(選択した拡張子を使用して) ランダムなリンクをクロールしたいと考えています。