テラバイトのデータを処理する場合、および一般的なデータフィルタリングの問題の場合、Apache PIGは正しい選択ですか?または、カスタムMapReduceコードで作業を行う方がよいでしょう。
質問する
945 次
1 に答える
3
ApachePIGはストレージレイヤーとして機能しません。PIGは、Hadoopで実行できるコードの作成を簡素化するスクリプト言語です。PIGスクリプトは、Hadoopに送信され、他のMapReduceジョブと同じ方法で実行される一連のHadoopMapReduceジョブにコンパイルされます。
Hadoopは、PIGではなくデータストレージを実行します。
あなたの質問に答えるために:いいえ、入力データのサイズに制限はありません。入力データがPIGロード関数によって解析でき、HadoopInputFormatsによって分割可能である限り。
PIGスクリプトは、標準のJava Hadoopジョブよりも簡単かつ高速に記述できます。また、PIGには、複雑なクエリの実行を高速化できるマルチクエリ実行などの巧妙な最適化が多数用意されています。
于 2012-09-27T09:40:29.523 に答える