私の質問に興味を持ってくれてありがとう。始める前に、私はHadoopとHBaseを初めて使用することをお知らせします。これまでのところ、Hadoopは非常に興味深いものであり、今後さらに貢献したいと思います。
私は主にHBaseのパフォーマンスの向上に興味があります。そのために、Writer
HBaseのメソッドを変更/io/hfile/Hfile.java
して、高速のバッファーデータアセンブリを実行し、Hadoopに直接書き込んで、後でHBaseでロードできるようにしました。
今、私は帯域幅を節約できるようにキーと値のペアを圧縮する方法を考え出そうとしています。私はその方法を理解するために多くの調査を行いました。そして、HBaseには圧縮ライブラリが組み込まれていることに気づきました。
私は現在SequenceFile (1)を見ています; setCompressMapOutput (2)(非推奨); およびクラス圧縮(3)。また、ApacheのMapReduceに関するチュートリアルも見つけました。
誰かが「SequenceFile」とは何か、そしてそれらの圧縮ライブラリとアルゴリズムをどのように実装できるかを説明してもらえますか?これらの異なるクラスとドキュメントは私にとってとても混乱しています。
よろしくお願いします。
-
ハイパーリンク:
(1):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
(2):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29
(3):www.apache.org/dist/hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html