hadoop - 特定の Hadoop タスクの入力レコードを表示するには?

Question

Hadoop ジョブを実行しています。4 つのタスクを除くすべてが完了しました。これらのチャンクを処理するのになぜこれほど長い時間がかかるのか、私は考えています。私の推測では、これらの入力レコードを私の仕事で処理するのは「難しい」と思います。ローカルでテストするには、それらの入力レコードを取得したいと思います。どうやってこれを行うのですか？

タスクのステータス列には hdfs://10.4.94.75:8020/user/someuser/myfilename:154260+3 と表示されます

しかし、それはどういう意味ですか？

score 0 · Accepted Answer

ステータスの最後の部分には、分割に関する情報が表示されます。すなわち：

  hdfs://10.4.94.75:8020/user/someuser/myfilename:154260+3

このステータスのタスクが、「myfilename」のバイトオフセット 154260 から始まり、長さが 3 の「myfilename」の分割を処理したことを示します。

この情報があれば、ファイルをバイト 154260 までスキップして 3 バイトを読み取ることで、このタスクに割り当てられたレコードを検出できます。

hadoop - 特定の Hadoop タスクの入力レコードを表示するには?

1 に答える 1

Related

Reference