0

現在、非常に少数の特定の関心のあるドキュメントを探して、多数の定義済みサイトをクロールしています。重要なのは、これらのサイトをクロールして独自の検索エンジンを作成しているわけではないということです。これはドキュメントを取得するためのものです。

すべての主要な検索エンジンには、お金を払ってもかまわない API がありますが、API を使用して独自の検索エンジンを作成することに重点を置いているようです。

例: http://info.yahoo.com/legal/us/yahoo/boss/tou/の Yahoo BOSS TOS 。B.1(a) は、「お客様は、提供物に展開された検索製品の一部として、サービスからの結果を組み込み、表示する目的でのみ、サービスを使用することを許可されています」と述べています。そのため、自分の検索エンジンにしか使用できません。

Google にはカスタム検索エンジンしかありませんが、これも私が必要としているものではありません。

Bing の API は私が必要としているものに近いようですが、TOS では特定の情報などを削除しない必要があります。しかし、繰り返しになりますが、独自の検索エンジンを実装するためだけに使用する必要はありません (私が見ることができるものから)。 .

これを読みすぎているのでしょうか、それとも、自分の製品ではなく、特定のサイトのクロールの結果を基本的に使用できる検索エンジンはありますか? 繰り返しますが、検索結果自体は私の製品ではありません。つまり、ドキュメント内のデータに対して私が行うことです。

ヒントをありがとう。

4

1 に答える 1

0

これを行うために検索エンジンを使用する必要はありません。

検索エンジンは、サイトのすべてのコンテンツをインデックスに登録するわけではありません。たとえば、サイトに類似のページが多数ある場合、それらは破棄されます。ページ数の多いサイトは完全にはインデックスされません。

この方法では、多くのページを見逃す可能性があります。

それをクロールしてください!

PS 個々の Web サイトをクロールすると、TOS に違反することがよくあります。それが気になる場合は、robots.txt にも注意してください。

于 2013-09-12T18:58:22.880 に答える