1

Hadoop クラスターで Hive を使用して、Presto を使用して Hadoop に保存されているデータの分析を行うことを検討していますが、まだいくつかのことについて混乱しています。

  • ファイルはHadoopに保存されます(ある種のファイルマネージャー)
  • Hive には、Hadoop からのデータを格納するためのテーブルが必要です (データ マネージャー)
    • Hadoop と Hive の両方がデータを別々に保存しますか、それとも Hive は Hadoop のファイルを使用するだけですか? (ハード ディスク容量などに関して?) -> Hive は Hadoop からデータをテーブルにインポートし、Hadoop をそのままにしておきますか、それともどうすればこれを確認できますか?
  • Presto は、Hive なしで Hadoop だけで直接使用できますか?

私の質問に答えてくれてありがとう:)

4

1 に答える 1

3

まず最初に、ファイルは Hadoop Distributed File System ( HDFS ) に保存されます。それはあなたがデータマネージャーと呼んでいるものですか?

実際、Hive は、HDFS の「通常の」ファイル、または特別なデータストア (ウェアハウスと呼ばれる) に格納された追加のメタデータを含む「通常の」ファイルであるテーブルの両方を使用できます。

Presto について - Hive メタストアのサポートが組み込まれていますが、任意のデータ ソース用に独自のコネクタ プラグインを作成することもできます。

Hive コネクタ構成の詳細についてはこちらを、コネクタ プラグインの詳細についてはこちらをお読みください。

于 2014-01-24T09:34:59.187 に答える