問題タブ [lzo]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - インデックス後の Hadoop lzo シングル スプリット
LZO 圧縮ファイルが/data/mydata.lzo
あり、これを MapReduce コードで実行したいと考えています。最初に、次のコマンドでhadoop-lzoパッケージを使用してインデックス ファイルを作成します。
これは正常に実行されます
ファイルを作成します/data/mydata.lzo.index
。これを他のHadoop Javaコードで実行したい
正しく実行されますが、永遠にかかります。ファイルが 1 回だけ分割されることに気付きました (LZO 以外のファイルに対してこの同じジョブを実行すると、約 25 回分割されます)。
私は何を間違っていますか?
hadoop-lzo のドキュメントが少し不足しています。「新しいファイルに対して、ワードカウントなどのジョブを実行します」と表示されます。ファイルを入力として使用する必要があると最初に考えましたが、それを使用/data/mydata.lzo.index
すると空の出力が得られます。ドキュメントには、「.lzo ファイルのインデックス作成を忘れた場合、ジョブは機能しますが、ファイル全体を 1 回の分割で処理するため、効率が低下することに注意してください。」と記載されているため、何らかの理由でindex
ファイルが表示されません。
インデックスファイルを渡す適切な方法は何ですか?
編集: GitHub のこの問題によると、インデックス ファイルは自動的に推測され、ファイル サイズに応じて分割されます。なぜ私が単一の分割を取得しているのかはまだわかりません。
java - JavaアプリケーションでMacのネイティブgplライブラリgplcompressionをインストールしてロードする方法は?
私は dropwizard アプリケーションを持っており、hadoop-lzo lib 内で使用して、lzo で圧縮されたいくつかのファイルを解凍します。使用すると、次のエラーが表示されます。
ネイティブ ライブラリ gpl 圧縮を Mac にインストールし、Java アプリケーションにロードするにはどうすればよいですか?