問題タブ [hadoop-lzo]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
772 参照

amazon-web-services - S3 から読み取るときに、Amazon の EMR で LZO インデックス作成に時間がかかるのはなぜですか?

S3 に 30 GB の lzo ファイルがあり、リージョン us-east1 を使用して、hadoop-lzo を使用して Amazon EMR (AMI v2.4.2) でインデックスを作成しています。

1% の進行に約 10 分かかるため、1 つのファイルが完了するまでに約 16 時間かかります。進行状況は、80MB しか読み取られていないことを示しています。

対照的に、同じクラスターを使用して (上記のジョブの実行中に)、ファイルを S3 からローカル ハード ディスクにコピーし、次に HDFS にコピーし、最後に合計約 10 分でインデクサーを実行できます。同様に、私のローカル クラスターはこれを約 7 分で処理できます。

以前は、LZO のインデックス作成を S3 で直接実行したと思いますが、以前の AMI バージョンではこのような遅延は発生しませんでした。私は常に「最新」を使用しているため、どの AMI を使用していたのかわかりません。(更新:同じ結果でAMI v2.2.4を試したので、記憶違いか、他の何かが原因で遅くなった可能性があります)

何が起こっているのでしょうか?

Step のログ出力のコピーを次に示します。

私の回避策

FWIW、私の回避策は、ファイルを HDFS にコピーすることですdistcp(以下を参照)。私の目には、この遅さは AWS が改善できる問題のように思えます。以下のジョブでは、S3 から HDFS へのコピーに 17 分かかり、インデックス作成には 1 分しかかかりません。

0 投票する
3 に答える
30792 参照

apache-spark - クラス com.hadoop.compression.lzo.LzoCodec が CDH 5 の Spark で見つかりませんか?

私はこの問題に 2 日間取り組んできましたが、まだ方法が見つかりません。

問題: 最新の CDH 5 を介してインストールされた Spark は、Cloudera Manager の Parcels を介して HADOOP_LZO をインストールした後でも、常に LzoCodec クラスが失われていると文句を言います。CDH 5.0.0-1.cdh5.0.0.p0.47 で MR1 を実行しています。

修正を試みてください: 「LZO パーセルの使用」に関する公式の CDH ドキュメントの構成も追加されていますが、問題はまだ残っています。

Google で検索された投稿のほとんどは、上記と同様のアドバイスを提供しています。また、スパークは、そこでアクティブ化されていない YARN に対して実行しようとしていると思われます。しかし、CMF またはこのトピックに関する他の投稿で構成を見つけることができません。

対処法をご存知でしたら教えてください。

0 投票する
0 に答える
1914 参照

java - java.lang.UnsatisfiedLinkError: java.library.path に gplcompression がありません

私は得た:java.lang.UnsatisfiedLinkError: no gplcompression in java.library.pathだから私は従った:[ http://wiki.apache.org/hadoop/UsingLzoCompression]だから実行した後

$ant compile-native

多くのエラーが発生します:

ヘルプ!

0 投票する
1 に答える
701 参照

java - lzo 圧縮を使用して Hive テーブルを作成しましたが、拡張子が .lzo のファイルが見つかりません

ハイブ コマンド プロンプトで次のプロパティを設定して、ハイブ テーブルを作成しました。

テーブル ステートメントを作成します。

ここで、この場所 /users/JOBDATA/comp に移動し、000000_0.deflate という名前のファイルを見つけます

これが圧縮ファイルかどうかはわかりませんが、ダウンロードすると読み取れません。もしそうなら、なぜ .lzo 拡張子がないのですか?

そうでない場合、.lzo ファイルはどこにありますか?

最後に、Javaを使用して解凍するにはどうすればよいですか? ありがとう