21

HDFS フラット ファイル (テキスト) に対する Hadoop シーケンス ファイルの利点は何ですか? シーケンスファイルはどのように効率的ですか?

小さなファイルを結合してシーケンス ファイルに書き込むことができますが、HDFS テキスト ファイルに対しても同じことができます。2 つの方法の違いを知る必要があります。私はこれについてしばらくグーグルで調べてきましたが、これを明確にすれば役に立ちますか?

4

3 に答える 3

26
  1. シーケンスファイルは、キーとそれに対応する値を保存する状況に適しています。テキストファイルの場合はそれを行うことができますが、各行を解析する必要があります。
  2. 圧縮しても分割可能であるため、ワークロードが向上します。分割可能な圧縮形式を使用しない限り、圧縮されたテキストファイルを分割することはできません。
  3. バイナリファイルとしてアプローチすることができます=>より効率的なストレージ。テキストファイルでは、doubleはcharsの数=>大きなストレージオーバーヘッドになります。
于 2012-08-02T13:48:35.720 に答える
0

シーケンス ファイルは、MapReduce 処理のマッパーおよびリデューサー フェーズで生成される中間ファイルです。シーケンス ファイルは圧縮可能で処理が高速で、マッパーおよびリデューサーのレッド中に出力を書き込むために使用されます。Hadoop と Spark には、シーケンス ファイルを読み書きするための API があります。

于 2017-01-03T12:25:58.267 に答える