0

クロールされたリンクを受け取ることができる API を提供している Google や他の会社はありますか? リンクを .txt 拡張子でフィルタリングし、場合によっては別の追加拡張子のみでフィルタリングしたいと考えています。

そうでない場合、ページをクロール/インデックス登録して、選択した拡張機能のみに絞り込むにはどうすればよいですか? また、法廷闘争に参加したくないので、robots.txt に準拠する必要がありますか? また、これらのファイルの内容をクロールするだけでも大規模なデータベースが必要になるでしょうか? DMOZ を出発点として、(選択した拡張子を使用して) ランダムなリンクをクロールしたいと考えています。

4

1 に答える 1

0

.txt 拡張子で検索する特定の用語がある場合は、Bing 検索 API ( https://datamarket.azure.com/dataset/bing/search ) または Yahoo (developer.yahoo.com/boss/search )を使用できます。 /)。しかし、得られる結果の数には制限があり、そのために莫大な代償を払わなければなりません。

しかし、ランダム リンクのテキスト ファイルが必要な場合は、nutch を使用して独自の検索エンジンを構築できます。特定のファイル拡張子をクロールするように nutch を構成できます。

www.building-blocks.com/thinking/building-a-search-engine-with-nutch-and-solr-in-10-minutes/

stackoverflow.com/questions/8971886/nutch-how-to-crawl-a-specific-file-type

于 2014-06-13T09:27:40.737 に答える