1

hdfs に非常に大きな Hadoop シーケンス ファイルがあります。そこからデータを取得する最良の方法は何ですか? つまり、レコードなどを選択します。

それはハイブによって行うことができますか?シーケンス ファイルからハイブにテーブルを作成するにはどうすればよいですか?

ありがとう

4

1 に答える 1

0

データへの「迅速な」アクセスが必要な場合は、データをある種のデータストア(DBまたはHBase、AccumuloなどのnoSQLストア)にロードすることを検討する必要があります。

別のオプション(データを書き直すことができる場合)は、MapFileの使用を検討することです。これにより、シーケンスファイル内のキーのインデックスが作成され、フルファイルスキャンと比較してデータへのアクセスが速くなります。

それ以外の場合、Hiveを使用する場合は、この正確な件名に関するスレッドがHiveメーリングリストにあります。

于 2012-07-05T23:09:01.910 に答える