0

Hadoop エコシステムについていくつか疑問があります。概念をよく理解しようとする意欲。

  1. Hive テーブルはデータをどこに保存しますか?
  2. データ ウェアハウスの場合、Hive テーブルと Hbase テーブルの両方に同じデータが必要ですか。
  3. Hbase からデータを挿入、更新、読み取るにはどうすればよいですか。
  4. HDFS が csv 以外に保存できるすべてのファイル形式。
  5. Hbase で PIG を使用できますか。
  6. Hive がある場合、Hbase テーブルを省略できますか。
4

1 に答える 1

2

答えは次のとおりです。

  1. 通常、Hive は、構成されたファイル システム ディレクトリの下のテーブル名のディレクトリにデータを格納します。通常は の HDFS ディレクトリであり、 のプロパティを/user/hive/warehouse介して調整できます。hive-site.xmlhive.metastore.warehouse.dir
  2. Hive と HBase は、2 つの異なるテーブル ストレージの概念です。前者には、レコードやランダムな読み取り/書き込みの概念がありません。それらの間の唯一の共通点は、Hive が HBase のサーバー/フォーマットに格納されたテーブル データを読み取る必要があるコネクタです。
  3. これについては、HBase リファレンス ガイドで詳しく説明されています。最も簡単な方法は、hbase shell.
  4. HDFS は、Unix や Windows のファイルシステムに似たプレーンなファイルシステム (分散のみ) であるため、保存するデータの種類は気にしません。後で消化するために使用できるリーダー/ライター ロジックもあれば、必要なものは何でも保存できます。
  5. Pig は、Pig スクリプトで HBase 行データにアクセスして表現できるように、そのコアの一部としてHBaseStorage組み込みのストレージ アクセス メソッドを提供します。
  6. (2) を参照してください。あなたが望まない限り、どちらも無関係なので、答えはイエスです。
于 2012-12-31T00:01:28.977 に答える