問題タブ [lzo]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bash - シェル スクリプトを使用した .lzo ファイルの解凍
わかりましたので、ウェブでかなりの検索を行いましたが、答えが見つかりませんでした。.lzo ファイルを解凍する必要があるシェル スクリプトを作成しています。リードが表示されません。誰でも何か考えがありますか?私は基本的にタイムスタンプ付きのログファイルを読んでいます。私のスクリプトは、引数として年、月、日を受け入れます。ファイルを見つけることはできますが、解凍する必要がある場合、.lzo ファイルの処理方法がわかりません。助けが必要です。
前もって感謝します。
hadoop - Hadoop および Hive での Hadoop LZO & SnappyCodec エラー
Ubuntu-12.04、Hadoop-1.0.2、Hive-0.10.0 を使用していますが、ハイブから約 100 万レコードのデータを読み取っています。クエリで以下のエラーが発生しました
$HADOOP_HOME/lib フォルダーに Hadoop 用の Snappy をインストールすると、ファイル libsnappy.a、libsnappy.la、libsnappy.so、libsnappy.so.1、libsnappy.so.1.1.4 が生成されます。
また、$HADOOP_HOME/lib/ に hadoop-lzo-0.4.3.jar を追加し、cor-site.xml、mapred-site.xml を次のように変更します。
コア-site.xml:-
mapred-site.xml :-
しかし、 hive & do を開始するとshow databases
、エラーが発生します:-
java - Hadoop lzopCodec パック
シンプルなマップ削減の例を作成しようとしています。これが私のコードです
マイマッパーはこちら
そしてMyReducer
このプログラムをローカルで実行すると、問題なく動作します。しかし、このプログラムを別の Hadoop マシンにロードすると、次のエラーが表示されます。
しかし、lzopCodec はどこにも使用していません。構成を作成し、プロパティを設定して、このコーデックの使用を無効にしようとしました
この構成をジョブに渡します。しかし、それでも失敗します。
lzopCodecを使用しようとする理由と、それを無効にするにはどうすればよいですか?
hadoop - Hadoop で Lzo 入力ファイルを分割する
大規模な圧縮データで MR を処理するために hadoop-lzo を使用しています。実際、私のジョブはツールによって自動的に生成されますが、それは問題ではありません。私の lzo 圧縮はすべてのノードで動作し (DistributedLzoIndexer を試しました)、次のコマンド ラインを使用して、分割された lzo ファイルでストリーミングを使用することもできます。
11個のマップを作成し(私のファイルサイズによると)、通常どおり処理します。しかし、他の jar ファイルを試してみると、lzo ファイルは 1 つのマップのみを使用して処理されます。だから私の質問は
通常、hadoop は圧縮コーデックに従って入力形式を使用しますか? 私の hadoop-lzo-0.4.3.jar はパスにあるので、なぜそれがまだデフォルトのテキスト形式を使用しているのか本当にわかりません。
Hadoop に LzoTextInputFormat の使用を強制する方法はありますか?
読んでくれてありがとう。
hadoop - Hadoop-LZO を使用して Java プロジェクトをビルドするが、クラスが見つからない
Hadoop-lzo ライブラリを利用する単純な WordCount jar プロジェクトを構築しようとしていますが、参照しているクラスがhadoop classpath
.
何か案は?
java - インデックス化された .lzo ログ ファイルの実行速度は .gz 圧縮xt よりも遅い
いくつかのログ ファイルを lzo 設定 7 で圧縮し、デフォルトの圧縮で gzip で圧縮しました。結果は次のとおりです。
MapReduce ジョブ:
- 1GB .gz ファイル - 340 秒
- 1 GB の .lzo ファイル (インデックスなし) - 410 秒
- 1 GB の .lzo ファイルのインデックス作成 - 380 秒
MapReduce ジョブは、通常の TextInputFormat クラスの代わりに、Hadoop-LZO ライブラリの LzoTextInputFormat クラスを利用するだけです。それが唯一の違いです。
37 のマップ タスクが実行され、ジョブが分割されて .index ファイルが使用されていることがわかりますが、パフォーマンスには多くの課題が残されています。何か案は?