hadoop - hdfsテキストファイルに対するシーケンスファイルの利点

Question

HDFS フラットファイル (テキスト) に対する Hadoop シーケンスファイルの利点は何ですか? シーケンスファイルはどのように効率的ですか?

小さなファイルを結合してシーケンスファイルに書き込むことができますが、HDFS テキストファイルに対しても同じことができます。2 つの方法の違いを知る必要があります。私はこれについてしばらくグーグルで調べてきましたが、これを明確にすれば役に立ちますか?

score 26 · Accepted Answer

シーケンスファイルは、キーとそれに対応する値を保存する状況に適しています。テキストファイルの場合はそれを行うことができますが、各行を解析する必要があります。
圧縮しても分割可能であるため、ワークロードが向上します。分割可能な圧縮形式を使用しない限り、圧縮されたテキストファイルを分割することはできません。
バイナリファイルとしてアプローチすることができます=>より効率的なストレージ。テキストファイルでは、doubleはcharsの数=>大きなストレージオーバーヘッドになります。

score 0 · Accepted Answer

シーケンスファイルは、MapReduce 処理のマッパーおよびリデューサーフェーズで生成される中間ファイルです。シーケンスファイルは圧縮可能で処理が高速で、マッパーおよびリデューサーのレッド中に出力を書き込むために使用されます。Hadoop と Spark には、シーケンスファイルを読み書きするための API があります。

hadoop - hdfsテキストファイルに対するシーケンスファイルの利点

3 に答える 3

Related

Reference