hadoop - Hadoop でビッグな科学データを扱う

Question

私は現在、「Hadoop を使用した時系列マイニングアルゴリズムのためのクラウドコンピューティング」というタイトルのプロジェクトを開始しています。私が持っているデータは、テラバイトを超えるサイズの hdf ファイルです。Hadoop では、さらに処理するための入力としてテキストファイルが必要であることがわかっています (map-reduce タスク)。そのため、すべての .hdf ファイルをテキストファイルに変換するオプションが 1 つあります。これには多くの時間がかかります。

または、map reduce プログラムで生の hdf ファイルを使用する方法を見つけました。これまでのところ、hdf ファイルを読み取り、そこからデータを抽出する Java コードを見つけることに成功していません。誰かが hdf ファイルを操作する方法についてより良いアイデアを持っている場合は、そのような助けに本当に感謝します.

ありがとう

score 3 · Accepted Answer

ここにいくつかのリソースがあります：

SciHadoop（netCDFを使用しますが、すでにHDF5に拡張されている可能性があります）。
JHDF5または下位レベルの公式JavaHDF5 インターフェースを使用して、map-reduceタスクの任意のHDF5ファイルからデータを読み取ることができます。

score 2 · Accepted Answer

最初のオプションとして、 HDF ダンプなどの変換ツールを使用して、HDF ファイルをテキスト形式にダンプできます。それ以外の場合は、Java ライブラリを使用して HDF ファイルを読み込んでテキストファイルに書き込むプログラムを作成できます。

2 番目のオプションとして、SciHadoop は、Hadoop から科学データセットを読み取る方法の良い例です。NetCDF-Java ライブラリを使用して NetCDF ファイルを読み込みます。Hadoop は、ファイル IO の POSIX API をサポートしていません。そのため、追加のソフトウェアレイヤーを使用して、NetCDF-java ライブラリの POSIX 呼び出しを HDFS(Hadoop) API 呼び出しに変換します。SciHadoop がまだ HDF ファイルをサポートしていない場合は、少し難しい道をたどって、同様のソリューションを自分で開発することもできます。

score 1 · Accepted Answer

Java コードが見つからず、他の言語で実行できる場合は、hadoop ストリーミングを使用できます。

hadoop - Hadoop でビッグな科学データを扱う

4 に答える 4

Related

Reference