問題タブ [lzo]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
3579 参照

hadoop - Cloudera Manager: MapReduce ジョブの Java ClassPath はどこに配置すればよいですか?

ローカルの疑似クラスターで Hadoop-Lzo が問題なく動作していますが、本番環境で同じ jar ファイルを 2 番目に試すと、次のようになります。

ライブラリは DataNodes 上にあることが確認されているので、私の質問は次のとおりです。

native-lzo ライブラリの場所はどの画面/設定で指定しますか?

0 投票する
1 に答える
3332 参照

java - Hadoop-LZO の奇妙なネイティブ lzo ライブラリが利用できないというエラー

Cloudera Hadoop-LZO パッケージをインストールし、次の設定をクライアント環境の安全弁に追加しました。

ただし、最も奇妙なnative-lzo library not availableというエラーが表示されます。

native-lzo ライブラリが正常にロードされたと言うのに、native-lzo ライブラリが利用できないと不平を言うのはなぜですか? これらの例外は DataNodes から発生していますか?

0 投票する
0 に答える
234 参照

hadoop - HTTPfs のタイムアウト パラメータを増やす方法

現在、HTTPfs を使用した取り込みプロセスが約 1 分でタイムアウトします。このタイムアウト設定は調整できますか?

0 投票する
1 に答える
466 参照

lzma - ファイルが lzop であるか lzma であるかを確認するにはどうすればよいですか?

lzop と lzma の両方で圧縮され、ファイル名に適切な拡張子が付いていないファイルがあります。たとえば、filename.lzo または filename.lzma の代わりに「filename」

それらがそれぞれの形式で圧縮されているかどうかをどのように確認できますか?

0 投票する
1 に答える
928 参照

python - mjob による LZO シーケンス ファイルの処理

Google Ngrams データを使用してさまざまな統計を計算するために、 mrjobでタスクを作成しています: https://aws.amazon.com/datasets/8172056142375670

タブ区切りテキストのデータの非圧縮サブセットを使用して、スクリプトをローカルで開発およびテストしました。ジョブを実行しようとすると、次のエラーが発生しました。

おそらくこれは、公開データ セットの圧縮スキームが原因であると考えられます (上記の URL リンクから)。

データセットを Amazon S3 の単一のオブジェクトに保存します。ファイルは、ブロック レベルの LZO 圧縮を使用したシーケンス ファイル形式です。シーケンス ファイルのキーは、LongWritable として保存されたデータセットの行番号であり、値は TextWritable として保存された生データです。

これらのファイルを処理できるワークフローを設定する方法に関するガイダンスはありますか? ヒントを徹底的に検索しましたが、役立つものは何も見つかりませんでした...

(私は mrjob と Hadoop に対して相対的に無知です。)

0 投票する
1 に答える
2189 参照

hadoop - Faunus テストが com.hadoop.compression.lzo.LzoCodec で失敗しました、HDP1.3 が見つかりません

こんにちは、HDP 1.3 に Faunus 0.32 をインストールしましたhttps://github.com/thinkaurelius/faunus/wiki/Getting-Startedの開始テスト ケースに従うと、次のエラーが発生しました

私はそれをググって、mapred-site.xml に lzo を追加します。

0 投票する
1 に答える
772 参照

amazon-web-services - S3 から読み取るときに、Amazon の EMR で LZO インデックス作成に時間がかかるのはなぜですか?

S3 に 30 GB の lzo ファイルがあり、リージョン us-east1 を使用して、hadoop-lzo を使用して Amazon EMR (AMI v2.4.2) でインデックスを作成しています。

1% の進行に約 10 分かかるため、1 つのファイルが完了するまでに約 16 時間かかります。進行状況は、80MB しか読み取られていないことを示しています。

対照的に、同じクラスターを使用して (上記のジョブの実行中に)、ファイルを S3 からローカル ハード ディスクにコピーし、次に HDFS にコピーし、最後に合計約 10 分でインデクサーを実行できます。同様に、私のローカル クラスターはこれを約 7 分で処理できます。

以前は、LZO のインデックス作成を S3 で直接実行したと思いますが、以前の AMI バージョンではこのような遅延は発生しませんでした。私は常に「最新」を使用しているため、どの AMI を使用していたのかわかりません。(更新:同じ結果でAMI v2.2.4を試したので、記憶違いか、他の何かが原因で遅くなった可能性があります)

何が起こっているのでしょうか?

Step のログ出力のコピーを次に示します。

私の回避策

FWIW、私の回避策は、ファイルを HDFS にコピーすることですdistcp(以下を参照)。私の目には、この遅さは AWS が改善できる問題のように思えます。以下のジョブでは、S3 から HDFS へのコピーに 17 分かかり、インデックス作成には 1 分しかかかりません。