hdfs に非常に大きな Hadoop シーケンス ファイルがあります。そこからデータを取得する最良の方法は何ですか? つまり、レコードなどを選択します。
それはハイブによって行うことができますか?シーケンス ファイルからハイブにテーブルを作成するにはどうすればよいですか?
ありがとう
データへの「迅速な」アクセスが必要な場合は、データをある種のデータストア(DBまたはHBase、AccumuloなどのnoSQLストア)にロードすることを検討する必要があります。
別のオプション(データを書き直すことができる場合)は、MapFileの使用を検討することです。これにより、シーケンスファイル内のキーのインデックスが作成され、フルファイルスキャンと比較してデータへのアクセスが速くなります。
それ以外の場合、Hiveを使用する場合は、この正確な件名に関するスレッドがHiveメーリングリストにあります。