問題タブ [lzo]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Cloudera Manager: MapReduce ジョブの Java ClassPath はどこに配置すればよいですか?
ローカルの疑似クラスターで Hadoop-Lzo が問題なく動作していますが、本番環境で同じ jar ファイルを 2 番目に試すと、次のようになります。
ライブラリは DataNodes 上にあることが確認されているので、私の質問は次のとおりです。
native-lzo ライブラリの場所はどの画面/設定で指定しますか?
java - Hadoop-LZO の奇妙なネイティブ lzo ライブラリが利用できないというエラー
Cloudera Hadoop-LZO パッケージをインストールし、次の設定をクライアント環境の安全弁に追加しました。
ただし、最も奇妙なnative-lzo library not availableというエラーが表示されます。
native-lzo ライブラリが正常にロードされたと言うのに、native-lzo ライブラリが利用できないと不平を言うのはなぜですか? これらの例外は DataNodes から発生していますか?
hadoop - HTTPfs のタイムアウト パラメータを増やす方法
現在、HTTPfs を使用した取り込みプロセスが約 1 分でタイムアウトします。このタイムアウト設定は調整できますか?
lzma - ファイルが lzop であるか lzma であるかを確認するにはどうすればよいですか?
lzop と lzma の両方で圧縮され、ファイル名に適切な拡張子が付いていないファイルがあります。たとえば、filename.lzo または filename.lzma の代わりに「filename」
それらがそれぞれの形式で圧縮されているかどうかをどのように確認できますか?
python - mjob による LZO シーケンス ファイルの処理
Google Ngrams データを使用してさまざまな統計を計算するために、 mrjobでタスクを作成しています: https://aws.amazon.com/datasets/8172056142375670
タブ区切りテキストのデータの非圧縮サブセットを使用して、スクリプトをローカルで開発およびテストしました。ジョブを実行しようとすると、次のエラーが発生しました。
おそらくこれは、公開データ セットの圧縮スキームが原因であると考えられます (上記の URL リンクから)。
データセットを Amazon S3 の単一のオブジェクトに保存します。ファイルは、ブロック レベルの LZO 圧縮を使用したシーケンス ファイル形式です。シーケンス ファイルのキーは、LongWritable として保存されたデータセットの行番号であり、値は TextWritable として保存された生データです。
これらのファイルを処理できるワークフローを設定する方法に関するガイダンスはありますか? ヒントを徹底的に検索しましたが、役立つものは何も見つかりませんでした...
(私は mrjob と Hadoop に対して相対的に無知です。)
hadoop - Faunus テストが com.hadoop.compression.lzo.LzoCodec で失敗しました、HDP1.3 が見つかりません
こんにちは、HDP 1.3 に Faunus 0.32 をインストールしましたhttps://github.com/thinkaurelius/faunus/wiki/Getting-Startedの開始テスト ケースに従うと、次のエラーが発生しました
私はそれをググって、mapred-site.xml に lzo を追加します。
amazon-web-services - S3 から読み取るときに、Amazon の EMR で LZO インデックス作成に時間がかかるのはなぜですか?
S3 に 30 GB の lzo ファイルがあり、リージョン us-east1 を使用して、hadoop-lzo を使用して Amazon EMR (AMI v2.4.2) でインデックスを作成しています。
1% の進行に約 10 分かかるため、1 つのファイルが完了するまでに約 16 時間かかります。進行状況は、80MB しか読み取られていないことを示しています。
対照的に、同じクラスターを使用して (上記のジョブの実行中に)、ファイルを S3 からローカル ハード ディスクにコピーし、次に HDFS にコピーし、最後に合計約 10 分でインデクサーを実行できます。同様に、私のローカル クラスターはこれを約 7 分で処理できます。
以前は、LZO のインデックス作成を S3 で直接実行したと思いますが、以前の AMI バージョンではこのような遅延は発生しませんでした。私は常に「最新」を使用しているため、どの AMI を使用していたのかわかりません。(更新:同じ結果でAMI v2.2.4を試したので、記憶違いか、他の何かが原因で遅くなった可能性があります)
何が起こっているのでしょうか?
Step のログ出力のコピーを次に示します。
私の回避策
FWIW、私の回避策は、ファイルを HDFS にコピーすることですdistcp
(以下を参照)。私の目には、この遅さは AWS が改善できる問題のように思えます。以下のジョブでは、S3 から HDFS へのコピーに 17 分かかり、インデックス作成には 1 分しかかかりません。