0

PS:私がいずれかの行で間違っている場合は私を訂正してください

NutchとSolrを使用して検索エンジンを構築しています。
Solrを使用することで、検索の効率を高めることができます。NutchにWeb全体のクロールだけを実行させます。
また、Hadoopを使用して、クラスターとMapReduceを形成することでペタバイトのデータを処理していることも知っています。

さて、私が知りたいのは、
1)以来、これらのオープンソースソフトウェアを1台のマシン、つまりローカルホスト上のラップトップで実行するからです... Hadoopはクラスターを形成するので、私の場合はどのように役立ちますか?たった1台のマシンでクラスターはどのように形成されますか?

2)私の場合、MapReduceの重要性は何でしょうか?

3)MAHOUT、CASSANDRA、HBASEは私のエンジンにどのように影響しますか?

この面での助けは非常にありがたいです。私が初心者の質問をしたならば私をお詫びします!!
よろしく
お願いします

4

1 に答える 1

5

1)以来、私はこれらのオープンソースソフトウェアを1台のマシン、つまりローカルホスト上のラップトップでのみ実行します... Hadoopはクラスターを形成するので、私の場合はどのように役立ちますか?

Hadoopは、大規模なデータを処理するために作成されました。Hadoopは分散アプリケーションです。1台のマシンでメリットが得られるわけではありません。

たった1台のマシンでクラスターはどのように形成されますか?

疑似クラスターモードでHadoopをインストールする

私の場合、MapReduceの重要性は何でしょうか?

繰り返しますが、クローラーによってフェッチされたページを数千ギガバイトのスケールで処理する場合。Map-Reduceは、このような大きなデータの処理に役立ちます

MAHOUT、CASSANDRA、HBASEは私のエンジンにどのように影響しますか?

これらは、さまざまなニーズに対応するさまざまなツールです。

Mahoutは、Hadoopまたはローカルファイルでmap-reduceタスクとして実行するように適合された機械学習アルゴリズムです。あなたはグーグル翻訳のような言語を学びたいですか、あなたはそれを使うことができます。

HBaseは、map-reduceがより役立つアドホック分析よりもリアルタイムのデータ処理を提供するno-sqlデータベースです。

問題の説明に戻って、必要なツールをできるだけ少なくして設計し、メモを打つと、これらのツールのいくつかがいつ役立つかを理解することをお勧めします。

于 2012-07-03T22:38:37.927 に答える