0

HDFS 内のフォルダー構造は、年次、月次、および日次のデータ処理をサポートする必要があります。過去 16 日間/21 日間の処理を行う必要がある場合、フレームワークはそれをサポートする必要があります。任意のアドホックな日数。日数の指定と開始日を除いて、人間の介入なしに処理を実行する必要があります。HDFS パスの指定は自動化する必要があります。デフォルトはファイルの日次処理です。

フレームワークは、ジョブを開始するためにどのフォルダーを調べる必要があるかを知る必要があるため、Map Reduce コードと統合する必要があります。

現在: 例:

/user/projectname/sourcefiles/datasetname/yyyy/mm/dd/timestamp/filename

しかし、これはすべての要件を満たしているわけではありません。たとえば、過去 16 日間のデータを処理する必要があるとします。

"/user/projectname/sourcefiles/datasetname/yyyy/mm/[01][0-9]/timestamp/filename" 19 日目のファイルも含まれるため、このパスは機能しません。

また、HDFS フォルダー構造のタイムスタンプと Map Reduce ジョブが同期していることをどのように確認しますか?

ありがとうございました。

4

2 に答える 2

0

MAP Reduce にフォルダーを指定すると、そのフォルダー内のすべてのファイルが処理されます。毎週のフォルダーまたは隔週のフォルダーを作成できます。それが役立つことを願っています

于 2013-04-24T08:05:54.213 に答える
0

あなたはできる:

  1. パス グロビングを使用 - 処理したい日のパス文字列を計算 - ここを参照http://books.google.co.il/books?id=Nff49D7vnJcC&pg=PA61&lpg=PA61&dq=path+globbing+pattern+hadoop&source=bl&ots= IihwWu8xXr&sig=g7DLXSqiJ7HRjQ8ZpxcAWJW0WV0&hl=en&sa=X&ei=Fp13Uey9AaS50QXJq4B4&ved=0CDAQ6AEwAQ#v=onepage&q=path%20globbing%20pattern%20hadoop&f=false

  2. シンボリック リンクを使用して、複数の階層を持つことができます。ただし、Java API でのみ使用できます。 -hadoop-0-21/

于 2013-04-24T08:54:07.630 に答える