java - ファイル処理における Apache Avro

Question

ファイル処理における Apache Avro の用途は何ですか? TB のデータを .LZO 形式で処理する必要がある場合、誰か説明してもらえますか?

C++ と Java のどちらかを選択できますが、Avro にはどちらがより完全に適合しますか?

私の本当の目的は、圧縮ファイルを読み取り、いくつかの基準に従ってそれらを新しい異なるファイルに分類することです。

前もって感謝します.... ：）

// Serialize user1, user2 and user3 to disk
  DatumWriter<User> userDatumWriter = new SpecificDatumWriter<User>    (User.class);
  DataFileWriter<User> dataFileWriter = new DataFileWriter<User>(userDatumWriter);
 dataFileWriter.create(user1.getSchema(), new File("users.avro"));
 dataFileWriter.append(user1);
 dataFileWriter.append(user2);
 dataFileWriter.append(user3);
 dataFileWriter.close();

score 0 · Accepted Answer

map-reduce 広告データ分析では、ボトルネックを回避するのに役立ちます。典型的な ETL フローでは、ポイント A からポイント B に到達するためにすべてが大きなデータの塊に依存している場合があります。

また、ファイル構造は Hadoop 用に最適化されており、「hadoop シーケンスファイル」に似ています。LZO には Hadoop の特定の最適化構造が欠けていますが、進歩は進んでいます

http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

Arvo ファイルは言語に依存せず、LZO と arvo の両方に C インターフェイスがあります。その投稿から、彼らはいくつかの pig udf に取り組んでいるので、近い将来、いくつかの Pig LZO が hdfs にブリッジすることが期待されます。

Arvo ファイルはスキーマベースです。http://avro.apache.org/docs/current/spec.html#schemas

これは、スキーマに基づいて実行時にファイルの形式/構造を検出できるため便利です。

ドキュメントはhttp://avro.apache.org/docs/current/を開始するのに適した場所です

java - ファイル処理における Apache Avro

1 に答える 1

Related

Reference