hadoop - データアーカイブシステムとしての Hadoop

Question

Hadoop (HDFS) をデータアーカイブソリューションとして使用する可能性を分析しています。これにより、線形のスケーラビリティとテラバイトあたりのメンテナンスコストが削減されます。

I/O、メモリ、ディスクなど、データアーカイブシステムとしての Hadoop に分析する必要があるパラメータの推奨事項とセットを教えてください。

関連するクエリで、hadoop シェルを使用して 500MB のサイズのファイルをアップロードしようとしているときに、

$ #dd を使用して 500MB のファイルを作成しました

$ dd if=/dev/zero of=500MBFile.txt bs=524288000 count=1

$ hadoop fs -Ddfs.block.size=67108864 -copyFromLocal 500MBFile.txt /user/cloudera/

入力ファイルがブロックサイズ (64MB) に基づいて分割されない理由を教えてください。これは、1 TB のファイルを取得する場合のデータアーカイブの一環として、これがどのように分割され、クラスター全体に分散されるかを理解するのに役立ちます。

単一ノードの cloudera hadoop セットアップを使用して演習を試みましたが、レプリケーションファクターは 1 です。

素晴らしい回答をありがとうございました。

score 2 · Accepted Answer

HDFS をアーカイブ/ストレージソリューションとして使用できますが、それが最適かどうかは疑問です。具体的には、OpenStack Swift ほど高可用性ではなく、小さなファイルの保存には適していません
。同時に、HDFS が選択されている場合は、ストレージ指向のノードでクラスターを構築することをお勧めします。私はそれらを次のように説明します：
a）大きくて遅いSATAディスクを置きます。データは常に読み取り/書き込みを行うわけではないため (デスクトップグレードのディスクはそうかもしれません)、大幅な節約になります。
b) 最小限のメモリを入れます - 4 GB をお勧めします。それは多くのコストを追加しませんが、それでも時折の MR 処理を可能にします。
c) シングル CPU で十分です。

copyFromLocalについて。はい、定義されたブロックサイズに従ってファイルが分割されています。

クラスター上の分散は、レプリケーションファクターを考慮して、クラスター全体で均一になります。HDFS は、各ブロックを複数のラックに配置しようとします。

score 1 · Accepted Answer

形式でファイルを読み込むことができ.harます。

詳細については、 Hadoop アーカイブをご覧ください。

score 0 · Accepted Answer

入力が少ない

ソリューションでの圧縮を検討してください。テキストファイルを使用するようです。約 80% の圧縮を達成できます。
Hadoop に適した (iesplitable) 圧縮を選択していることを確認してください

hadoop - データ アーカイブ システムとしての Hadoop

3 に答える 3

Related

Reference

hadoop - データアーカイブシステムとしての Hadoop