hadoop - hadoop - 非常に大きなシーケンスファイルからデータを取得する最良の方法は何ですか?

Question

hdfs に非常に大きな Hadoop シーケンスファイルがあります。そこからデータを取得する最良の方法は何ですか? つまり、レコードなどを選択します。

それはハイブによって行うことができますか？シーケンスファイルからハイブにテーブルを作成するにはどうすればよいですか?

ありがとう

score 0 · Accepted Answer

データへの「迅速な」アクセスが必要な場合は、データをある種のデータストア（DBまたはHBase、AccumuloなどのnoSQLストア）にロードすることを検討する必要があります。

別のオプション（データを書き直すことができる場合）は、MapFileの使用を検討することです。これにより、シーケンスファイル内のキーのインデックスが作成され、フルファイルスキャンと比較してデータへのアクセスが速くなります。

それ以外の場合、Hiveを使用する場合は、この正確な件名に関するスレッドがHiveメーリングリストにあります。

hadoop - hadoop - 非常に大きなシーケンス ファイルからデータを取得する最良の方法は何ですか?