行をその場で更新できるデータベースの便利さが気に入っています。しかし、Hadoop は、並行して使用できるシーケンス ファイルに依存しています。
1 行だけを書き換えることができる HBase のアイデアが気に入りました。map-reduce ジョブへの入力であるだけでなく、しかし、HBase は初心者がいじらなければならないものではありませんよね? これに適したツール/方法は何ですか?
HBase を習得して使用することは、さほど難しいことではないと思います。
元の質問に来ます。HBase を使用する理由は、他の DB を使用する理由と同じです。つまりrandom, real-time read/write access
、HDFS には他の FS のように欠けています。これは、HDFS だけでなく、どのファイルシステムにも当てはまります。例として、ext4 と MySQL パラダイムを取り上げることができます。
そして、HBase で書き換えると言うと、実際には更新ではありません。new version
セルまたはdelete
セルとput
新しいデータを同じ場所に配置します。
また、Hadoop が並列処理を提供するためにシーケンス ファイルに依存しているとは言えません。並列処理は、Hadoop がその性質によって提供するものですdistributed platform
。Hadoop を使用すると、ほとんどすべての種類のファイルをほぼ同等の並列処理で処理できます。MapReduce processing
シーケンス ファイルの唯一の利点は、既に に含まれているため、 に適していることkey/vale pairs
です。
塩のピンチでそれを取る必要がありますが、率直に言って、Hadoop は更新を理解していません。ユースケースをもう少し詳しく説明できれば、もっと良いものを提案できるかもしれません。