検索エンジンを作りたい。いくつかのサイトをクロールし、そのインデックスと情報を Hadoop に保存したいと考えています。そして、Solr検索を使用して実行されます。しかし、私は多くの問題に直面しています。Google で検索すると、さまざまな人が Hadoop ベースの検索エンジンをセットアップするためのさまざまな提案やさまざまな構成方法を提供します。これらは私のいくつかの質問です:
1) クロールはどのように行われますか? クロールを完了するための NUTCH の使用はありますか? はいの場合、Hadoop と NUTCH はどのように通信しますか?
2) Solr の用途は何ですか? NUTCH がクロールを完了し、クロールされたインデックスとその情報を Hadoop に保存した場合、Solr の役割は何ですか?
3) Solr と Nutch を使用して検索できますか? はいの場合、クロールされたインデックスをどこに保存しますか?
4) Solr はどのように Hadoop と通信しますか?
5) 可能であれば、いくつかのサイトをクロールし、その情報を DB (Hadoop またはその他) に保存してから検索する方法を 1 つずつ説明してください。
私は本当にこれで立ち往生しています。どんな助けでも本当に感謝します。
よろしくお願いします。:)
私の大きな問題を解決するのを手伝ってください