問題タブ [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop 入力形式
Hadoop 試験の準備中に、以下の質問に出くわしましたが、私は正解を理解できませんでした。質問についての正確性について確信が持てませんでした。
行番号、タブ文字、文字列の構造を持つファイルのディレクトリがあるとします。
各行を 1 つのレコードとして Mapper に送信します。行を完成させるためにどの InputFormat を使用しますか: setInputFormat (________.class);
答え:C
しかし、意見では、これを達成するために または のいずれかをKeyValueTextInputFormat使用SequenceFileAsTextInputFormatすることもできます。
hadoop - FileNotFoundException シーケンス ファイル Mahout
私はApache Mahout Cookbookを読んでいます。しかし、第 2 章で問題があり、シーケンス ファイルを作成しています。私はMahout 0.9を使用しています
私が実行しているコマンドは次のとおりです。
しかし、次のエラーが発生します。
この例外を取得する理由を誰か教えてもらえますか? ありがとうございました!
java - Spark でのキーと値のペアの保存と読み取り
次の形式の JavaPairRDD があります。
Key-Value 形式で保存したい(String, Tuple2< String, List< String>>)。
したがって、次のジョブはデータを my に直接読み込むことができますJavaPairRDD:
Java 7、Spark 1.2、Java API を使用しています。試しsaveAsTextFileてみましたがsaveAsObjectFile、どちらも機能しません。saveAsSequenceFileそして、私の日食にはオプションがありません。
この問題について何か提案はありますか?どうもありがとうございました!
hadoop - フィールドの 1 つに基づいて複数のディレクトリ内の SequenceFile に Scalding TypedPipe を出力する
Hadoop で Scalding を使用しています。データ フィールドの 1 つに基づいてチャンクで出力したい TypedPipe の形式の大きなデータセットがあります。
たとえば、データはで<category, field1, field2>、各カテゴリのデータを別のカテゴリの SequenceFile に格納する必要があります。outPath/cat1outPath/cat2
TemplatedTsvここでオプション
について読みました: Scaldingで出力をバケット化する方法
そしてここ: Scalding で Hive スタイルのディレクトリ構造でデータを出力する方法は?
ただし、これは、SequenceFile ではなく、Tsv ファイルが必要な場合にのみ機能します。
明らかにループが機能します:
TemplateTsvでは、ループを回避して、SequenceFile の書き込みで機能する同等の方法はありますか?
hadoop - Hadoop をインストールせずにローカル ファイル システムに Hadoop シーケンス ファイルを作成する方法は?
Hadoop をインストールせずに Java のみから Hadoop シーケンス ファイルを作成することはできますか? シーケンス ファイルをローカルに作成するスタンドアロンの Java プログラムが必要です。私の Java プログラムは、hadoop がインストールされていない環境で実行されます。
hadoop - シーケンス ファイルは、ローカル ファイル システムと比較して、HDFS での読み取りのパフォーマンスを向上させるのに役立ちますか?
1000 個の小さなファイル (1 ~ 2 MB) について、HDFS とローカル ファイル システムのパフォーマンスを比較したいと考えています。シーケンス ファイルを使用しない場合、HDFS はローカル ファイル システムと比較して、1000 個のファイルを読み取るのにほぼ 2 倍の時間を要します。ここでシーケンス ファイルについて聞きました - HDFS の小さなファイルの問題 これらのレコードを取得するための HDFS の応答時間が、ローカル FS よりも優れていることを示したいと思います。シーケンス ファイルは役に立ちますか、それとも別のものを探すべきですか? (おそらくHBase)
編集: Java プログラムを使用して、ここのようなファイルを読み取りますHDFS Read through Java
java - 作成されたシーケンス ファイルが Hadoop で奇妙な出力を返す
いくつかの小さな bzip2 ファイルをシーケンス ファイルに結合したいと考えています。シーケンス ファイルを作成するコードを見て、試してみました。しかし、以下のように奇妙な出力が得られます。これは、bzip2 ファイルを読み取れないためですか?
コードは
私が渡す入力は Json.bzip2 ファイルです。奇妙な出力が得られる理由を誰かが指摘してください。
amazon-s3 - EMR で PySpark を使用して S3 から SequenceFiles を読み取ると、RACK_LOCAL ローカリティが発生します
EMR で PySpark を使用して、S3 で SequenceFiles として保存されているデータを分析しようとしていますが、データの局所性が原因でパフォーマンスの問題が発生しています。以下は、うまく動作しない非常に単純なサンプルです。
問題はcountアクションにあります。正常に動作しますが、タスクの分散は非常に貧弱です。何らかの理由で、Spark ログで、クラスターの 2 つの IP のみが実際の作業を行っており、残りはアイドル状態になっています。5 ノード クラスタと 50 ノード クラスタで試してみましたが、ログには常に 2 つの IP しか表示されません。
また、非常に奇妙なことに、これら 2 つの IP には RACK_LOCAL という局所性があります。データが S3 にあるためローカルではないためだと推測していますが、Spark が 2 つのインスタンスだけでなくクラスター全体を使用するようにするにはどうすればよいですか?
EMR での Spark 構成に固有のことは何もしませんでした。ネイティブ アプリを介して EMR にインストールするだけで、構成の最適化が自動的に処理されると思います。
ログでこれを見ました。これはallowLocal=false問題である可能性がありますが、それについては何も見つかりませんでした:
の実行時に続くいくつかのログにはcount、2 つの IP のみが示されています。