最近 Pig を使い始めたばかりで、構造化データの構文を理解するのに苦労しています。以下のデータモデルの例を考えると、Hive、Pig、または「その他」のどちらが問題により適しているでしょうか?
データ・モデル:
Item
> id<long>
> description<string>
> source<collection of following>
> source_id<long>
> source_name<string>
> relevant_link<collection of strings>
> link_id<string>
Link
> link_id<string>
> metadata1<string>
> metadata2<string>
一般的な操作:
- さまざまな形式からこの形式にデータをインポートする
- データのクエリ (並べ替え、集計、サンプル、要約) (全員がその言語の専門家ではないチームが行うことが望ましい)
- さまざまなフィルターを使用して、さまざまな形式で結合およびエクスポートします
これは、大規模なデータセット (150 ~ 500 GB の生のテキスト データ) の基本的なデータ操作です。
問題/質問:
- Pig は、そのリンクに参加する際に私たちに挑戦をもたらしました (Pig のコレクションのコレクションは、非常に抽象的になるバッグのバッグです)。
- Hive はこれらのコレクションのコレクションを管理するのに適していますか?
- 多くの「データ変換」アクティビティが予想されますが、データを SQL のような形式に簡単に適合させることができるため、Hive は使いやすいソリューションになりますか?