8

Hadoop を試した人はいますか? 共有なしのアーキテクチャで、分散ファイルシステムなしで使用できますか? それは理にかなっていますか?

また、あなたのパフォーマンス結果にも興味があります...

4

9 に答える 9

8

Yes, you can use Hadoop on a local filesystem by using file URIs instead of hdfs URIs in various places. I think a lot of the examples that come with Hadoop do this.

This is probably fine if you just want to learn how Hadoop works and the basic map-reduce paradigm, but you will need multiple machines and a distributed filesystem to get the real benefits of the scalability inherent in the architecture.

于 2008-08-22T16:29:08.793 に答える
4

Hadoop MapReduce は、任意の数のファイル システム、またはデータベースなどのより抽象的なデータ ソース上で実行できます。実際、 S3FTPなど、非 HDFS ファイルシステムをサポートする組み込みクラスがいくつかあります。基本的なInputFormat クラスを拡張することで、独自の入力形式を簡単に構築することもできます。

ただし、HDFS を使用すると、特定の利点が得られます。最も強力な利点は、MapReduce ジョブ スケジューラが、処理が必要なレコードを格納している物理マシンでマップとリデュースを実行しようとすることです。これにより、データをネットワーク経由で転送するのではなく、ローカル ディスクから直接ロードできるため、パフォーマンスが向上します。接続によっては、桁違いに遅くなる場合があります。

于 2009-05-21T22:40:37.087 に答える
3

Joe が言ったように、実際に HDFS なしで Hadoop を使用できます。ただし、スループットは、データが保存されている場所の近くで計算を行うクラスターの能力に依存します。HDFS を使用することには 2 つの主な利点があります。IMHO では、1) 計算がクラスター全体でより均等に分散される (ノード間通信の量が減る)、2) クラスター全体として、データが利用できないために障害が発生しにくくなります。

データが既に分割されているか、簡単に分割できる場合は、map-reduce タスクに独自の分割関数を提供することを検討してください。

于 2008-09-12T15:40:10.107 に答える
3

Hadoop を理解するには、Hadoop をダウンロードしてインクルードの例を調べてみるのが一番です。Linux ボックス/VM を使用すると、Mac や Windows よりもセットアップがはるかに簡単になります。サンプルと概念に慣れたら、問題空間がフレームワークにどのようにマッピングされるかを確認してください。

Hadoop の詳細については、次の 2 つのリソースが役立ちます。

Hadoop サミットのビデオとプレゼンテーション

Hadoop: The Definitive Guide: Rough Cuts Version - これは、現時点で Hadoop で入手できる数少ない (唯一の?) 書籍の 1 つです。この時点でも、電子ダウンロード オプションの価格に見合うだけの価値があると思います (本は ~40% 完成しています)。

Hadoop: 決定版ガイド: ラフカット版

于 2008-09-26T16:01:59.043 に答える
0

並列/分散コンピューティング=SPEED << Hadoopを使用すると、大量のコモディティマシンを使用できるため、これは非常に簡単で安価になります。

何年にもわたってディスクストレージの容量は大幅に増加しましたが、データを読み取る速度は維持されていません。1つのディスクにあるデータが多いほど、シークは遅くなります。

Hadoopは、問題解決への分割征服アプローチの巧妙な変形です。基本的に、問題を小さなチャンクに分割し、チャンクを複数の異なるコンピューターに割り当てて、1台のマシンに過負荷をかけるのではなく、処理を並行して実行して処理を高速化します。各マシンは独自のデータのサブセットを処理し、結果は最終的に結合されます。単一ノードでのHadoopは、重要な速度を提供しません。

Hadoopのメリットを確認するには、同じラックに少なくとも4〜8台のコモディティマシン(データのサイズによって異なります)を備えたクラスターが必要です。

分散コンピューティングを利用するために、もはや超天才の並列システムエンジニアである必要はありません。HiveでのHadoopと、これから先のことを知ってください。

于 2012-06-18T21:58:20.413 に答える
0

初心者の方は、CDH4 をダウンロードして実行することから始めてください。ローカル仮想マシンに簡単にインストールして、実際のクラスターでの実行方法を厳密に模倣する「疑似分散モード」で実行できます。

于 2012-12-04T21:32:57.950 に答える
0

はい、Hadoop は HDFS なしで非常にうまく使用できます。HDFS は、Hadoop のデフォルトのストレージにすぎません。HDFS をデータベースなどの他のストレージに置き換えることができます。HadoopDB は、HDFS の代わりにデータベースをデータ ソースとして使用する、hadoop を拡張したものです。ググれば簡単に手に入る。

于 2012-07-20T07:03:01.990 に答える