hadoop - インプレース更新を可能にする SequenceFile 代替/拡張

Question

行をその場で更新できるデータベースの便利さが気に入っています。しかし、Hadoop は、並行して使用できるシーケンスファイルに依存しています。

1 行だけを書き換えることができる HBase のアイデアが気に入りました。map-reduce ジョブへの入力であるだけでなく、しかし、HBase は初心者がいじらなければならないものではありませんよね? これに適したツール/方法は何ですか?

score 1 · Accepted Answer

HBase を習得して使用することは、さほど難しいことではないと思います。

元の質問に来ます。HBase を使用する理由は、他の DB を使用する理由と同じです。つまりrandom, real-time read/write access、HDFS には他の FS のように欠けています。これは、HDFS だけでなく、どのファイルシステムにも当てはまります。例として、ext4 と MySQL パラダイムを取り上げることができます。

そして、HBase で書き換えると言うと、実際には更新ではありません。new versionセルまたはdeleteセルとput新しいデータを同じ場所に配置します。

また、Hadoop が並列処理を提供するためにシーケンスファイルに依存しているとは言えません。並列処理は、Hadoop がその性質によって提供するものですdistributed platform。Hadoop を使用すると、ほとんどすべての種類のファイルをほぼ同等の並列処理で処理できます。MapReduce processingシーケンスファイルの唯一の利点は、既にに含まれているため、に適していることkey/vale pairsです。

塩のピンチでそれを取る必要がありますが、率直に言って、Hadoop は更新を理解していません。ユースケースをもう少し詳しく説明できれば、もっと良いものを提案できるかもしれません。

hadoop - インプレース更新を可能にする SequenceFile 代替/拡張

1 に答える 1

Related

Reference