15

Map Reduce で Avro の使用を開始したいと考えています。誰かが始めるのに良いチュートリアル/例を提案できますか. インターネット検索ではあまり見つかりませんでした。

4

4 に答える 4

17

私は最近、Avro データに大きく基づいたプロジェクトを行いましたが、以前はこのデータ形式を使用したことがなかったため、ゼロから始める必要がありました。おっしゃる通り、Avro を使い始めるときにオンライン ソースから多くの助けを得るのはかなり難しいです。私があなたにお勧めする資料は次のとおりです。

  • 私が見つけた最も役立つ情報源は、Tom White のHadoop: The Definitive Guide book の Avro セクション (p103-p116) と、彼が本で使用しているコードのGithub ページです。
  • 追加のコード例については、Ron Bodkin の Github ページavro-mr-sample を参照してください。
  • 私の場合、Avro ファイルの読み取りと書き込みに Python を使用し、そのためにこのチュートリアルを使用しました。
  • 当たり前のことですが、リンクをAvro Users メーリング リストに追加します。そこには大量の情報があり、上記の資料を読んで大量のコードを実装した後、アーカイブを調べて何時間も費やしていることに気付きました。

最後に、私の最後の提案は、Avro 1.4.1 と Hadoop 0.20.2を組み合わせて使用​​することです。Hadoop 0.21 以降の Avro バージョンを使用してコードを実行するには、大きな問題がいくつかありました。

于 2011-04-28T20:01:56.950 に答える
2

https://github.com/apache/avro/blob/trunk/lang/java/mapredavroソースコードには例があります。たとえば、TestReflectJobは、事前定義されたドメインオブジェクトを使用してmap-reduceジョブを作成するのに役立ちます

于 2012-06-27T06:08:21.807 に答える
2

その他のリンク:

ドキュメンテーションで私が目にする主な問題 (存在するものはほとんどありません) は、非常に骨の折れる「一般的な」アプローチに焦点を当てていることです。両方の世界の最悪の組み合わせであるため、奇妙に思えます-データの完全なスキーマを提供する必要がありますが、静的型などから何のメリットも得られません。自動コード生成はより便利ですが、十分にカバーされていません。

于 2012-04-24T05:43:41.217 に答える