0

私は最終年度のプロジェクトのために検索エンジンを構築しようとしています。私はこの2か月間、このトピックについて多くの調査を行いました。そして、インターネットをクロールするためのクローラー、パーサー、およびインデクサーが必要になることがわかりました。

Nutchをクローラーおよびsolrとして使用して、Nutchによってクロールされたデータのインデックスを作成しようとしています。しかし、私は両方のインストール部分で立ち往生しています。インターネット上のチュートリアルを使用して、システムにNutchとsolrをインストールしようとしていますが、何も機能しませんでした。

Nutchとsolrをインストールして統合する方法を学ぶことができる、ある種のインストールガイドまたはリンクが必要です。

次に、パーサーで立ち往生しています。この段階についてはわかりません。インデックスを作成する前にデータの解析を行う方法について、ここでヘルプが必要です。

グーグルか何かを作りたくない。必要なのは、特定のWebサイトの特定のアイテムを検索することだけです。

私はJavaの経験があり、快適に作業できますが、皆さんのような専門家ではありません。正しい方向に進んでいるかどうか、次に何をすべきかを教えてください。

Ubuntu 10.10を使用していて、ApacheTomcat7を使用しています。

4

1 に答える 1

-1

これはナットのインストール用で、これは Solr との統合用です。

パーサーに関しては、nutch には独自のパーサー セットがあり、解析を気にする必要はありません。クロール コマンドをトリガーすると、自動的に実行されます。Nutch が提供するものとは別に解析したくない場合を除き、問題にはなりません。Nutch でいくつかの .xyz ファイルを解析したい場合は、そのためのパーサー プラグインを作成し、nutch と統合する必要があります。

于 2012-04-21T04:54:59.443 に答える