hadoop - データノードでブロックの内容を直接読み取る

Question

HDFS では、ブロックはアクティブなノード/スレーブ間で分散されます。ブロックの内容は単純なテキストなので、各データノードに存在するブロックの読み取りまたはアクセスを確認する方法はありますか?

score 0 · Accepted Answer

ファイル全体として、または単一のブロック (ブロック番号 3 など) を順不同で読み取るには?

Java API を含むさまざまなメカニズムを介してファイルを読み取ることができますが、ファイルの途中 (ブロック 3 の開始時など) で読み取りを開始することはできません。

score 0 · Accepted Answer

データノードへの ssh アクセス (および適切なパーミッション) があると仮定するとcd、ブロックが格納されているパスにアクセスして、そのノードに格納されているブロックを読み取ることができます (たとえば、を実行しますcat BLOCK_XXXX)。ブロックが格納されている場所を示す構成パラメータはでdfs.datanode.data.dir、デフォルトはfile://${hadoop.tmp.dir}/dfs/dataです。詳細はこちら。

警告: ブロック名は、内部ブロック ID に応じて HDFS によってコード化されます。それらの名前を見ただけでは、ブロックがどのファイルに属しているかを知ることはできません。

最後に、デバッグの目的で、または単に好奇心を満たすためにこれを行いたいと思います。通常、これを行う理由はなく、HDFS Web UI またはコマンドラインツールを使用してファイルの内容を確認する必要があります。

score 0 · Accepted Answer

Hadoop はデータのブロックを読み取り、各行をマッパーにフィードしてさらに処理します。また、Hadoop クライアントは、連結する前に、異なるデータノードからファイルに関連するブロックを取得します。したがって、特定のブロックからデータを取得できるはずです。

Hadoop クライアントは、コードを確認するのに適した場所かもしれません。ただし、HDFS はファイルシステムの抽象化を提供します。特定のブロックからデータを読み取るための要件が何であるかはわかりません。

hadoop - データノードでブロックの内容を直接読み取る

3 に答える 3

Related

Reference