comparison - Pigは非構造化データをどのように処理しますが、Hiveは処理できませんか？

Question

これと他の参考文献によると、非構造化データを処理するには、PigがHiveよりも優れています。したがって、データは最初にPigでクレンジングされ、次にHiveで処理されます。

ただし、データファクトリでは、データはまだ標準化された状態になっていない可能性があります。これにより、Pigは、部分的または未知のスキーマを持つデータ、および半構造化データまたは非構造化データをサポートするため、このユースケースにも適しています。

Pigが非構造化データを処理できるのに対し、Hiveは処理できない方法について詳しく知りたい。

score 2 · Accepted Answer

Pigは、スキーマの少ないデータセットを処理するように構築されています。一方、Hiveでは、derbyに格納されるスキーマ、またはmysqlに格納するように構成できるスキーマを適用します。

score 0 · Accepted Answer

PigとHiveの主な違いは、Pigはデータフロー言語であるのに対し、Hiveは宣言型言語であるということです。そうは言っても、Pigはスキーマが定義されていない非構造化データを処理できますが、Hiveはスキーマを必要とします。また、場合によっては、Pigを使用してデータをスキーマに接続し、Hiveよりも優位に立つことができます。対照的に、HiveはHadoopをデータウェアハウスに変換し、SQL方言のように機能します。最後に、別のデータフロー言語であるJaqlについて知りたいと思うかもしれません。Pigとは異なり、そのネイティブデータ構造形式はJSONです。同様に、Jaqlはスキーマを必要としません。お役に立てれば。

comparison - Pigは非構造化データをどのように処理しますが、Hiveは処理できませんか？

2 に答える 2

Related

Reference