hadoop - Hadoop と Hive と Presto に関する質問

Question

Hadoop クラスターで Hive を使用して、Presto を使用して Hadoop に保存されているデータの分析を行うことを検討していますが、まだいくつかのことについて混乱しています。

ファイルはHadoopに保存されます（ある種のファイルマネージャー）
Hive には、Hadoop からのデータを格納するためのテーブルが必要です (データマネージャー)
- Hadoop と Hive の両方がデータを別々に保存しますか、それとも Hive は Hadoop のファイルを使用するだけですか? (ハードディスク容量などに関して?) -> Hive は Hadoop からデータをテーブルにインポートし、Hadoop をそのままにしておきますか、それともどうすればこれを確認できますか?
Presto は、Hive なしで Hadoop だけで直接使用できますか?

私の質問に答えてくれてありがとう:)

score 3 · Accepted Answer

まず最初に、ファイルは Hadoop Distributed File System ( HDFS ) に保存されます。それはあなたがデータマネージャーと呼んでいるものですか？

実際、Hive は、HDFS の「通常の」ファイル、または特別なデータストア (ウェアハウスと呼ばれる) に格納された追加のメタデータを含む「通常の」ファイルであるテーブルの両方を使用できます。

Presto について - Hive メタストアのサポートが組み込まれていますが、任意のデータソース用に独自のコネクタプラグインを作成することもできます。

Hive コネクタ構成の詳細についてはこちらを、コネクタプラグインの詳細についてはこちらをお読みください。

1 に答える 1