3

ドメイン内のすべての Web ページとサブドメインを検索する方法を探しています。たとえば、uoregon.edu ドメインで、このドメインとすべてのサブ ドメイン (cs.uoregon.edu など) のすべての Web ページを検索したいと考えています。

私はナッチを見てきましたが、それは仕事をすることができると思います. しかし、nutch は Web ページ全体をダウンロードし、後で検索できるようにインデックスを作成しているようです。しかし、同じドメインに属する URL の Web ページのみをスキャンするクローラーが必要です。さらに、nutch は linkdb をシリアル化された形式で保存しているようです。どうすれば読めますか?solr を試してみたところ、nutch が収集したデータを読み取ることができました。しかし、私は検索を実行していないので、solr が必要だとは思いません。必要なのは、特定のドメインに属する URL だけです。

ありがとう

4

2 に答える 2

4

Ruby に精通している場合は、アネモネの使用を検討してください。素晴らしいクロール フレームワーク。これは、すぐに使用できるサンプル コードです。

require 'anemone'

urls = []

Anemone.crawl(site_url)
  anemone.on_every_page do |page|
    urls << page.url
  end
end

https://github.com/chriskite/anemone

免責事項: サブドメインをクロールするには問題のパッチを使用する必要があり、最大ページ数の追加を検討する必要がある場合があります。

于 2012-04-22T23:08:58.057 に答える
0

特定のドメインのすべてのサブドメインを見つける最も簡単な方法は、問題のサイトの DNS 管理者に依頼して、DNS ゾーン転送またはそのゾーン ファイルを提供してもらうことです。ゾーンにワイルドカード DNS エントリがある場合は、ワイルドカード DNS エントリの要求に応答するサーバーの構成 (および場合によってはコード) も取得する必要があります。ドメイン名空間の一部が他の DNS サーバーによって処理される可能性があることを忘れないでください。それらすべてからデータを取得する必要があります。

HTTPサーバーは、サーバー構成ファイルに焼き付けられた異なる名前へのリクエストに対して異なる処理を行う可能性があるため、またはサーバーを実行するアプリケーションコード、またはおそらくサーバーを実行するアプリケーションコードがデータベースルックアップを実行して、名。FTP は名前ベースの仮想ホスティングを提供しません。関心のある他のサービスは、名前ベースの仮想ホスティング プロトコルを提供する場合と提供しない場合があります。

于 2012-04-22T23:12:55.030 に答える