Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
データを寄木細工形式として hdfs に保存します。このデータを実行するために mapred を記述します success 、およびマップ内の列入力をフィルター処理したい、
hadoop mapreduce で列の寄木細工をフィルタリングする方法
parquet.read.schemamr ジョブ構成でプロパティを設定し、必要な列を含むスキーマ文字列を指定する必要があります (ファイルの寄木細工スキーマの射影)。もちろん、使用してExampleInputFormat.classください。
parquet.read.schema
ExampleInputFormat.class
ソースコードなどを読むまでずっとこの疑問にParquetInputFormat.java GroupReadSuport.java頭を悩ませていたのですが、ParquetInputFormatはリクエストスキーマを使って読み込んでいます。
ParquetInputFormat.java GroupReadSuport.java