3

検索エンジンを作りたい。いくつかのサイトをクロールし、そのインデックスと情報を Hadoop に保存したいと考えています。そして、Solr検索を使用して実行されます。しかし、私は多くの問題に直面しています。Google で検索すると、さまざまな人が Hadoop ベースの検索エンジンをセットアップするためのさまざまな提案やさまざまな構成方法を提供します。これらは私のいくつかの質問です:

1) クロールはどのように行われますか? クロールを完了するための NUTCH の使用はありますか? はいの場合、Hadoop と NUTCH はどのように通信しますか?

2) Solr の用途は何ですか? NUTCH がクロールを完了し、クロールされたインデックスとその情報を Hadoop に保存した場合、Solr の役割は何ですか?

3) Solr と Nutch を使用して検索できますか? はいの場合、クロールされたインデックスをどこに保存しますか?

4) Solr はどのように Hadoop と通信しますか?

5) 可能であれば、いくつかのサイトをクロールし、その情報を DB (Hadoop またはその他) に保存してから検索する方法を 1 つずつ説明してください。

私は本当にこれで立ち往生しています。どんな助けでも本当に感謝します。

よろしくお願いします。:)

私の大きな問題を解決するのを手伝ってください

4

1 に答える 1

1

Nutch を Web クローラーとして使用し、Solr を生産的な環境での検索に使用しています。ですので、3)について教えていただければ幸いです。

これはどのように作動しますか?Nutch には、独自のクロール データベースと、クロールを開始するいくつかの Web サイトがあります。PDFクロール、HTMLサイトから抽出されるフィールドなど、さまざまなことを構成できるプラグインがいくつかあります。Nutch は、クロール時に Web サイトから抽出されたすべてのリンクを保存し、次のサイクルでそれらをたどります。すべてのクロール結果はクロール データベースに保存されます。Nutch では、クロールされた結果が古くなり、クローラーが定義された開始サイトから開始する間隔を構成します。

クロール データベース内の結果は、solr インデックスに同期されます。したがって、solrインデックスで検索しています。Nutch は、Web サイトからデータを取得して solr に提供するためだけにこの星座にいます。

于 2012-11-30T14:54:00.290 に答える