1

Java Nutch を使用していくつかのページをクロールしました。また、Java の Lucene を使用して、インデックス付きドキュメントに対してクエリを実行できるモジュールを作成しました。URL、重量、タイトルなどの Nutch フィールドを作成したことは知っています。しかし、各ページのコンテンツをキャプチャすることに興味があります。Lucene を使用して、nutch でクロールしたことを知るにはどうすればよいですか?

ありがとう

4

1 に答える 1

0

あなたが達成したいことについてもっと詳しく説明する必要があります... Nutch にはすでに Lucene インデックスが含まれているので、なぜ別のインデックスが必要なのだろうか???? Nutch には jsp フロントエンドがあり、フィールドの内容を確認したり、クエリを実行したりする方法を見つけることができます。ページのキャッシュされたデータを取得できるように実装されたキャッシュ システムがありますが、再度解析して再度インデックスを作成する必要があります。

于 2010-12-05T19:59:06.370 に答える