問題タブ [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop シーケンス ファイルからデータを抽出するには?
Hadoop シーケンス ファイルは非常に奇妙です。イメージをシーケンス ファイルにパックしましたが、イメージを復元できません。私はいくつかの簡単なテストを行います。そして、シーケンスファイルを使用する前後でバイトのサイズが同じではないことがわかりました。
出力は同じバイト数を取得したことを示しており、イメージをローカル ディスクに書き戻した後、元のイメージを取得したことを確信しています。しかし、なぜ MD5 値が同じではないのでしょうか?
ここで何が間違っていたのですか?
oracle - Sqoop による Oracle へのシーケンス ファイルのエクスポート
Sqoop を使用してシーケンス ファイルを Oracle にエクスポートする方法に関するドキュメントを探しています。それは可能ですか?
現在、テキストベースの形式のファイル (HDFS) があり、Sqoop を使用してそれらのファイルをいくつかの Oracle のテーブルにエクスポートしており、正常に動作しています。ここで、ファイルの形式をテキストからシーケンス ファイルなどに変更したいと考えています (後で Avro)。では、Sqoop を使用して HDFS から Oracle に異なるファイル形式をエクスポートしたい場合はどうすればよいでしょうか?
どんな情報でも大歓迎です。
前もって感謝します。
mahout - Amazon EMR での SeqFilesFromDirectory() エラー
ディレクトリ内のテキストファイルをシーケンスファイルに変換する簡単なプログラムを Amazon EMR で実行しようとしています。プログラムはローカル マシンでは問題なく動作しますが、Amazon EMR では次のエラーが発生します。誰かがこのエラーを取り除く方法を教えてください。
ありがとうございました。
スレッド「メイン」の例外 java.lang.IllegalArgumentException: このファイル システム オブジェクト (hdfs://172.31.4.175:9000) は、要求パスへのアクセスをサポートしていません..必要なときに FileSystem.get(conf) を呼び出した可能性がありますFileSystem.get(uri, conf) を呼び出して、パスをサポートするファイル システムを取得します。
org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:384) で org.apache.hadoop.hdfs.DistributedFileSystem.getPathName(DistributedFileSystem.java:129) で org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus (DistributedFileSystem.java:513) org.apache.mahout.text.SequenceFilesFromDirectory.runMapReduce(SequenceFilesFromDirectory.java:140) org.apache.mahout.text.SequenceFilesFromDirectory.run(SequenceFilesFromDirectory.java:89) org.apache. hadoop.util.ToolRunner.run(ToolRunner.java:65) で org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:79) で com.gifts.text.SeqFileDirectory.main(SeqFileDirectory.java:36) でsun.reflect.NativeMethodAccessorImpl.invoke0(ネイティブ メソッド) で、sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) で、sun.reflect.DelegatingMethodAccessorImpl で。org.apache.hadoop.util.RunJar.main(RunJar.java:187) で java.lang.reflect.Method.invoke(Method.java:606) で invoke(DelegatingMethodAccessorImpl.java:43)*
hadoop - 大きな (>1GB) BytesWritable 値サイズを持つ SequenceFile を作成するときの NegativeArraySizeException
1 つの短い (<100 バイト) キーと 1 つの大きな (>1GB) 値 (BytesWriteable) を持つ大きな Hadoop SequenceFile を作成するさまざまな方法を試しました。
次のサンプルは、すぐに使用できます。
合計サイズが 3GB を超える複数のランダムな長さのキーと値を書き込みます。
しかし、それは私がやろうとしていることではありません。そこで、hadoop 2.2.0 API を使用して次のように変更しました。
fileSizeInMB>700MB の場合、次のようなエラーが発生します。
このエラーについて議論されていますが、解決策がありません。int(2^32) は 2GB まで大きくなる可能性があることに注意してください。700MB で失敗することはありません。
このような大きな値の SequenceFile を作成する別の方法がある場合は、アドバイスしてください。入力ストリームからバイト [] への IOutils.read などの他のアプローチを試してみたところ、ヒープ サイズまたは OOME が得られました。
hadoop - hadoopでsequenceFileをソートするときのclasscastException?
Hadoop-The definitive guide
Tom White の第 3 版をフォローしています。への書き込みに成功しsequenceFile
ましたHDFS
。著者が本で示した例に従いました。しかし、sort
(pg 138)を実行しようとすると、classCastException
. スタックトレースは以下で入手できます。
ここで何が問題で、どのような修正が必要ですか?
java - SequenceFileInputFormat の分割数を増やす
キーがテキストで、値がテキストである、マップの入力としてSequenceFileInputFormatを使用しています。106 個のファイルがあり、それぞれのサイズは 500 MB から 750 MB です。ログを見たところ、分割数が 290 であると書かれています。
ジョブの実行に時間がかかるため、分割数を増やす方法があるかどうかを知りたいです。助けてくれてありがとう。