1

Hadoop (HDFS) をデータ アーカイブ ソリューションとして使用する可能性を分析しています。これにより、線形のスケーラビリティとテラバイトあたりのメンテナンス コストが削減されます。

I/O、メモリ、ディスクなど、データ アーカイブ システムとしての Hadoop に分析する必要があるパラメータの推奨事項とセットを教えてください。

関連するクエリで、hadoop シェルを使用して 500MB のサイズのファイルをアップロードしようとしているときに、

$ #dd を使用して 500MB のファイルを作成しました

$ dd if=/dev/zero of=500MBFile.txt bs=524288000 count=1

$ hadoop fs -Ddfs.block.size=67108864 -copyFromLocal 500MBFile.txt /user/cloudera/

入力ファイルがブロック サイズ (64MB) に基づいて分割されない理由を教えてください。これは、1 TB のファイルを取得する場合のデータ アーカイブの一環として、これがどのように分割され、クラスター全体に分散されるかを理解するのに役立ちます。

単一ノードの cloudera hadoop セットアップを使用して演習を試みましたが、レプリケーション ファクターは 1 です。

素晴らしい回答をありがとうございました。

4

3 に答える 3

2

HDFS をアーカイブ/ストレージ ソリューションとして使用できますが、それが最適かどうかは疑問です。具体的には、OpenStack Swift ほど高可用性ではなく、小さなファイルの保存には適していません
。同時に、HDFS が選択されている場合は、ストレージ指向のノードでクラスターを構築することをお勧めします。私はそれらを次のように説明します:
a)大きくて遅いSATAディスクを置きます。データは常に読み取り/書き込みを行うわけではないため (デスクトップ グレードのディスクはそうかもしれません)、大幅な節約になります。
b) 最小限のメモリを入れます - 4 GB をお勧めします。それは多くのコストを追加しませんが、それでも時折の MR 処理を可能にします。
c) シングル CPU で十分です。

copyFromLocalについて。はい、定義されたブロックサイズに従ってファイルが分割されています。

クラスター上の分散は、レプリケーション ファクターを考慮して、クラスター全体で均一になります。HDFS は、各ブロックを複数のラックに配置しようとします。

于 2012-08-10T13:54:47.493 に答える
1

形式でファイルを読み込むことができ.harます。

詳細については、 Hadoop アーカイブをご覧ください。

于 2015-08-13T12:02:50.807 に答える
0

入力が少ない

  1. ソリューションでの圧縮を検討してください。テキストファイルを使用するようです。約 80% の圧縮を達成できます。
  2. Hadoop に適した (iesplitable) 圧縮を選択していることを確認してください
于 2013-08-14T12:28:06.313 に答える