ドメイン内のすべての Web ページとサブドメインを検索する方法を探しています。たとえば、uoregon.edu ドメインで、このドメインとすべてのサブ ドメイン (cs.uoregon.edu など) のすべての Web ページを検索したいと考えています。
私はナッチを見てきましたが、それは仕事をすることができると思います. しかし、nutch は Web ページ全体をダウンロードし、後で検索できるようにインデックスを作成しているようです。しかし、同じドメインに属する URL の Web ページのみをスキャンするクローラーが必要です。さらに、nutch は linkdb をシリアル化された形式で保存しているようです。どうすれば読めますか?solr を試してみたところ、nutch が収集したデータを読み取ることができました。しかし、私は検索を実行していないので、solr が必要だとは思いません。必要なのは、特定のドメインに属する URL だけです。
ありがとう