Hadoop (HDFS) をデータ アーカイブ ソリューションとして使用する可能性を分析しています。これにより、線形のスケーラビリティとテラバイトあたりのメンテナンス コストが削減されます。
I/O、メモリ、ディスクなど、データ アーカイブ システムとしての Hadoop に分析する必要があるパラメータの推奨事項とセットを教えてください。
関連するクエリで、hadoop シェルを使用して 500MB のサイズのファイルをアップロードしようとしているときに、
$ #dd を使用して 500MB のファイルを作成しました
$ dd if=/dev/zero of=500MBFile.txt bs=524288000 count=1
$ hadoop fs -Ddfs.block.size=67108864 -copyFromLocal 500MBFile.txt /user/cloudera/
入力ファイルがブロック サイズ (64MB) に基づいて分割されない理由を教えてください。これは、1 TB のファイルを取得する場合のデータ アーカイブの一環として、これがどのように分割され、クラスター全体に分散されるかを理解するのに役立ちます。
単一ノードの cloudera hadoop セットアップを使用して演習を試みましたが、レプリケーション ファクターは 1 です。
素晴らしい回答をありがとうございました。