hadoop - カスタムチャンク構造を使用してファイルを HDFS にロードする

Question

3 ノードの Apache Hadoop クラスターの HDFS にSegYファイルをロードしたいと考えています。

要約すると、SegY ファイルは以下で構成されます。

3200 バイトのテキストヘッダー
400 バイトのバイナリヘッダー
可変バイトデータ

ファイルの 99.99% のサイズは、数千の連続したトレースのコレクションである可変バイトデータによるものです。SegY ファイルを意味のあるものにするには、テキストヘッダー + バイナリヘッダー + 少なくとも 1 つのデータのトレースが含まれている必要があります。私が達成したいのは、大きな SegY ファイルを Hadoop クラスターに分割して、各ノードで小さな SegY ファイルをローカル処理に使用できるようにすることです。

シナリオは次のとおりです。

SegY ファイルのサイズが大きく (10GB 以上)、NameNode マシンのローカルファイルシステムに保存されています。
ファイルは、各ノードが厳密な構造を持つ小さなSegYファイルを持つように、ノード上で分割されます - 3200 バイトのテキストヘッダー+ 400 バイトのバイナリヘッダー+ 可変バイトデータfs -copyFromLocal は、より大きなファイルのチャンクが必要な形式を保証しない可能性があるためです

score 0 · Accepted Answer

同様のことを行うGithubプロジェクトがあるようです：

load コマンドsuhdpは、ローカルマシン上の SEG-Y または SU 形式のファイルを取得し、Hadoop で使用できるようにフォーマットして、Hadoop クラスターにコピーします。

suhdp load -input <local SEG-Y/SU files> -output <HDFS target> [-cwproot <path>]

それはまさにあなたが必要としているものではないかもしれませんが、SEG-Y ファイルを HDFS にロードする最も簡単な方法のようです。

hadoop - カスタム チャンク構造を使用してファイルを HDFS にロードする

1 に答える 1

Related

Reference

hadoop - カスタムチャンク構造を使用してファイルを HDFS にロードする