ログ ファイルが作成された日付に基づいて、異なるディレクトリにログ ファイルが保存されます。
例えば
> /mypath/2017/01/20/...
.
.
.
> /mypath/2017/02/13/...
> /mypath/2017/02/14/...
このマスター ファイルで集計を実行できるように、pyspark を使用してこれらすべてのログ ファイルを 1 つの rdd に結合したいと考えています。
今日まで、私は sqlContext と呼ばれる個々のディレクトリを取得し、Union を使用して特定の日付のすべてのログ ファイルを結合しました。
DF1 = (sqlContext.read.schema(schema).json("/mypath/2017/02/13")).union(sqlContext.read.schema(schema).json("/mypath/2017/02/14"))
日付の範囲からログ ファイルを指定してマスター rdd を取得する簡単な方法はありますか? (つまり、2017/01/20 から 2017/02/14 まで)
私はスパークにまったく慣れていないので、どこかで間違っていたら訂正してください。