api - クロールされたサイトの API?

Question

クロールされたリンクを受け取ることができる API を提供している Google や他の会社はありますか? リンクを .txt 拡張子でフィルタリングし、場合によっては別の追加拡張子のみでフィルタリングしたいと考えています。

そうでない場合、ページをクロール/インデックス登録して、選択した拡張機能のみに絞り込むにはどうすればよいですか? また、法廷闘争に参加したくないので、robots.txt に準拠する必要がありますか? また、これらのファイルの内容をクロールするだけでも大規模なデータベースが必要になるでしょうか? DMOZ を出発点として、(選択した拡張子を使用して) ランダムなリンクをクロールしたいと考えています。

score 0 · Accepted Answer

.txt 拡張子で検索する特定の用語がある場合は、Bing 検索 API ( https://datamarket.azure.com/dataset/bing/search ) または Yahoo (developer.yahoo.com/boss/search )を使用できます。 /）。しかし、得られる結果の数には制限があり、そのために莫大な代償を払わなければなりません。

しかし、ランダムリンクのテキストファイルが必要な場合は、nutch を使用して独自の検索エンジンを構築できます。特定のファイル拡張子をクロールするように nutch を構成できます。

www.building-blocks.com/thinking/building-a-search-engine-with-nutch-and-solr-in-10-minutes/

stackoverflow.com/questions/8971886/nutch-how-to-crawl-a-specific-file-type

api - クロールされたサイトの API?

1 に答える 1

Related

Reference