2

こんにちは、私は Hadoop および NoSQL テクノロジの初心者です。HDFS に格納されたファイルを読み込んで処理することから、world-count プログラムで学習を開始しました。今、MongoDB で Hadoop を使用したいと考えています。ここからプログラムを開始しました。

ここで、mongodb データをローカル ファイル システムに保存し、マップ/リデュースでローカル ファイル システムから HDFS にデータを読み取り、再び mongodb ローカル ファイル システムに書き込むという混乱があります。HBaseを調べたところ、HDFSにデータを保存するように構成でき、hadoopはHDFSで直接処理できます(マップ/リデュース)。HDFS にデータを保存するように mongodb を構成する方法。

高速処理のためにデータを HDFS に保存する方が良い方法だと思います。ローカル ファイル システムにはありません。私は正しいですか?間違った方向に進んでいる場合は、私のコンセプトをクリアしてください。

4

2 に答える 2

3

MongoDB は HDFS 上で動作するように構築されておらず、実際には必要ありません。Mongo には、水平方向にスケーリングし、複数のマシンに保存されたデータを操作するための独自のアプローチが既にあるためです。

MongoDB と Hadoop を使用する必要がある場合のより良いアプローチは、データのソースとして MongoDB を使用し、Hadoop ですべてを処理することです (一時ストレージには HDFS を使用します)。データの処理が完了したら、MongoDB、S3、または必要な場所に書き戻すことができます。

Mongo と Hadoop をどのように使用できるかについて、もう少し詳しく説明したブログ投稿をここに書きました: http://blog.mortardata.com/post/43080668046/mongodb-hadoop-why-how

于 2013-02-19T13:36:47.447 に答える
3

HDFS は分散ファイル システムであり、HBase は HDFS をファイル システムとして使用する NoSQL データベースであり、大規模に動作することが証明されている Hadoop との高速かつ効率的な統合を提供します。HBase データを Hadoop で直接操作したり、HDFS にプッシュしたりできることは、HBase を NoSQL データベース ソリューションとして選択する場合の大きな利点の 1 つです。データベースとの間でデータを移動する際の効率性の問題。

MongoDB が Hadoop とどの程度うまく統合されているかについての詳細な分析については、このブログ投稿を参照してください。結論の 1 つは、MongoDB から HDFS への書き込みがうまく機能しないというものでした: http://www.ikanow.com/how-well-does -mongodb-integrate-with-hadoop/

于 2013-02-18T05:13:59.983 に答える