私は最終年度のプロジェクトのために検索エンジンを構築しようとしています。私はこの2か月間、このトピックについて多くの調査を行いました。そして、インターネットをクロールするためのクローラー、パーサー、およびインデクサーが必要になることがわかりました。
Nutchをクローラーおよびsolrとして使用して、Nutchによってクロールされたデータのインデックスを作成しようとしています。しかし、私は両方のインストール部分で立ち往生しています。インターネット上のチュートリアルを使用して、システムにNutchとsolrをインストールしようとしていますが、何も機能しませんでした。
Nutchとsolrをインストールして統合する方法を学ぶことができる、ある種のインストールガイドまたはリンクが必要です。
次に、パーサーで立ち往生しています。この段階についてはわかりません。インデックスを作成する前にデータの解析を行う方法について、ここでヘルプが必要です。
グーグルか何かを作りたくない。必要なのは、特定のWebサイトの特定のアイテムを検索することだけです。
私はJavaの経験があり、快適に作業できますが、皆さんのような専門家ではありません。正しい方向に進んでいるかどうか、次に何をすべきかを教えてください。
Ubuntu 10.10を使用していて、ApacheTomcat7を使用しています。