4

質問が少し奇妙であることは知っています。Hadoop と HDFS が大好きですが、最近は Hive Metastore を使用して SparkSQL に取り組んでいます。

SparkSQL を垂直 SQL エンジンとして使用して、ETL プロセスなしで RDB、Mongo、Elastic などのさまざまなデータソースで OLAP クエリを実行したいと考えています。次に、対応する Hive ストレージ Handler を使用して、別のスキーマを Metastore の外部テーブルとして登録します。

さらに、私の仕事では HDFS をデータソースとして使用していません。次に、指定された Map/R は既に Spark エンジンに置き換えられています。Hadoop/HDFS は役に立たないが、Hive のインストールのベースになるように思えます。全部買いたくない。

SparkSQL をサポートするために、Hadoop/HDFS なしで Hive メタストア サービスのみを開始すると、どのような問題が発生するのでしょうか。私はジャングルに身を置きますか?

4

1 に答える 1

3

必要なのは「Hive Local Mode」です (ページで「Hive、Map-Reduce、および Local-Mode」を検索してください)。

これも役立つかもしれません。

この構成は、ローカルで実験している場合にのみ推奨されます。ただし、この場合はメタストアのみが必要です。

ここからも;

Spark SQL は、Hive メタストアを使用するように構成しない場合でも、Hive メタストアを使用します。構成されていない場合、デフォルトの Derby DB をメタストアとして使用します。

したがって、これは非常に合法的なようです。

  1. Hive でメタストアを配置する
  2. Hive をローカル モードで起動する
  3. Spark に Hive メタストアを使用させる
  4. Hive でサポートされているすべてのデータソースの SQL エンジンとして Spark を使用します。
于 2016-11-27T11:31:18.750 に答える