solr - Hadoop と Solr を使用して検索エンジンを作成する場合、NUTCH の役割は何ですか?

Question

検索エンジンを作りたい。いくつかのサイトをクロールし、そのインデックスと情報を Hadoop に保存したいと考えています。そして、Solr検索を使用して実行されます。しかし、私は多くの問題に直面しています。Google で検索すると、さまざまな人が Hadoop ベースの検索エンジンをセットアップするためのさまざまな提案やさまざまな構成方法を提供します。これらは私のいくつかの質問です：

1) クロールはどのように行われますか? クロールを完了するための NUTCH の使用はありますか? はいの場合、Hadoop と NUTCH はどのように通信しますか?

2) Solr の用途は何ですか? NUTCH がクロールを完了し、クロールされたインデックスとその情報を Hadoop に保存した場合、Solr の役割は何ですか?

3) Solr と Nutch を使用して検索できますか? はいの場合、クロールされたインデックスをどこに保存しますか?

4) Solr はどのように Hadoop と通信しますか?

5) 可能であれば、いくつかのサイトをクロールし、その情報を DB (Hadoop またはその他) に保存してから検索する方法を 1 つずつ説明してください。

私は本当にこれで立ち往生しています。どんな助けでも本当に感謝します。

よろしくお願いします。:)

私の大きな問題を解決するのを手伝ってください

score 1 · Accepted Answer

Nutch を Web クローラーとして使用し、Solr を生産的な環境での検索に使用しています。ですので、3)について教えていただければ幸いです。

これはどのように作動しますか？Nutch には、独自のクロールデータベースと、クロールを開始するいくつかの Web サイトがあります。PDFクロール、HTMLサイトから抽出されるフィールドなど、さまざまなことを構成できるプラグインがいくつかあります。Nutch は、クロール時に Web サイトから抽出されたすべてのリンクを保存し、次のサイクルでそれらをたどります。すべてのクロール結果はクロールデータベースに保存されます。Nutch では、クロールされた結果が古くなり、クローラーが定義された開始サイトから開始する間隔を構成します。

クロールデータベース内の結果は、solr インデックスに同期されます。したがって、solrインデックスで検索しています。Nutch は、Web サイトからデータを取得して solr に提供するためだけにこの星座にいます。

solr - Hadoop と Solr を使用して検索エンジンを作成する場合、NUTCH の役割は何ですか?

1 に答える 1

Related

Reference