問題タブ [sequencefile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
136 参照

hadoop - Hadoop 入力形式

Hadoop 試験の準備中に、以下の質問に出くわしましたが、私は正解を理解できませんでした。質問についての正確性について確信が持てませんでした。

行番号、タブ文字、文字列の構造を持つファイルのディレクトリがあるとします。

各行を 1 つのレコードとして Mapper に送信します。行を完成させるためにどの InputFormat を使用しますか: setInputFormat (________.class);

答え:C

しかし、意見では、これを達成するために または のいずれかをKeyValueTextInputFormat使用SequenceFileAsTextInputFormatすることもできます。

0 投票する
1 に答える
393 参照

hadoop - FileNotFoundException シーケンス ファイル Mahout

私はApache Mahout Cookbookを読んでいます。しかし、第 2 章で問題があり、シーケンス ファイルを作成しています。私はMahout 0.9を使用しています

私が実行しているコマンドは次のとおりです。

しかし、次のエラーが発生します。

この例外を取得する理由を誰か教えてもらえますか? ありがとうございました!

0 投票する
1 に答える
2330 参照

java - Spark でのキーと値のペアの保存と読み取り

次の形式の JavaPairRDD があります。

Key-Value 形式で保存したい(String, Tuple2< String, List< String>>)

したがって、次のジョブはデータを my に直接読み込むことができますJavaPairRDD:

Java 7、Spark 1.2、Java API を使用しています。試しsaveAsTextFileてみましたがsaveAsObjectFile、どちらも機能しません。saveAsSequenceFileそして、私の日食にはオプションがありません。

この問題について何か提案はありますか?どうもありがとうございました!

0 投票する
1 に答える
665 参照

hadoop - フィールドの 1 つに基づいて複数のディレクトリ内の SequenceFile に Scalding TypedPipe を出力する

Hadoop で Scalding を使用しています。データ フィールドの 1 つに基づいてチャンクで出力したい TypedPipe の形式の大きなデータセットがあります。

たとえば、データはで<category, field1, field2>、各カテゴリのデータを別のカテゴリの SequenceFile に格納する必要があります。outPath/cat1outPath/cat2

TemplatedTsvここでオプション について読みました: Scaldingで出力をバケット化する方法

そしてここ: Scalding で Hive スタイルのディレクトリ構造でデータを出力する方法は?

ただし、これは、SequenceFile ではなく、Tsv ファイルが必要な場合にのみ機能します。

明らかにループが機能します:

TemplateTsvでは、ループを回避して、SequenceFile の書き込みで機能する同等の方法はありますか?

0 投票する
1 に答える
1395 参照

hadoop - Hadoop をインストールせずにローカル ファイル システムに Hadoop シーケンス ファイルを作成する方法は?

Hadoop をインストールせずに Java のみから Hadoop シーケンス ファイルを作成することはできますか? シーケンス ファイルをローカルに作成するスタンドアロンの Java プログラムが必要です。私の Java プログラムは、hadoop がインストールされていない環境で実行されます。

0 投票する
1 に答える
461 参照

hadoop - シーケンス ファイルは、ローカル ファイル システムと比較して、HDFS での読み取りのパフォーマンスを向上させるのに役立ちますか?

1000 個の小さなファイル (1 ~ 2 MB) について、HDFS とローカル ファイル システムのパフォーマンスを比較したいと考えています。シーケンス ファイルを使用しない場合、HDFS はローカル ファイル システムと比較して、1000 個のファイルを読み取るのにほぼ 2 倍の時間を要します。ここでシーケンス ファイルについて聞きました - HDFS の小さなファイルの問題 これらのレコードを取得するための HDFS の応答時間が、ローカル FS よりも優れていることを示したいと思います。シーケンス ファイルは役に立ちますか、それとも別のものを探すべきですか? (おそらくHBase)

編集: Java プログラムを使用して、ここのようなファイルを読み取りますHDFS Read through Java

0 投票する
0 に答える
113 参照

java - 作成されたシーケンス ファイルが Hadoop で奇妙な出力を返す

いくつかの小さな bzip2 ファイルをシーケンス ファイルに結合したいと考えています。シーケンス ファイルを作成するコードを見て、試してみました。しかし、以下のように奇妙な出力が得られます。これは、bzip2 ファイルを読み取れないためですか?

コードは

私が渡す入力は Json.bzip2 ファイルです。奇妙な出力が得られる理由を誰かが指摘してください。

0 投票する
0 に答える
288 参照

amazon-s3 - EMR で PySpark を使用して S3 から SequenceFiles を読み取ると、RACK_LOCAL ローカリティが発生します

EMR で PySpark を使用して、S3 で SequenceFiles として保存されているデータを分析しようとしていますが、データの局所性が原因でパフォーマンスの問題が発生しています。以下は、うまく動作しない非常に単純なサンプルです。

問題はcountアクションにあります。正常に動作しますが、タスクの分散は非常に貧弱です。何らかの理由で、Spark ログで、クラスターの 2 つの IP のみが実際の作業を行っており、残りはアイドル状態になっています。5 ノード クラスタと 50 ノード クラスタで試してみましたが、ログには常に 2 つの IP しか表示されません。

また、非常に奇妙なことに、これら 2 つの IP には RACK_LOCAL という局所性があります。データが S3 にあるためローカルではないためだと推測していますが、Spark が 2 つのインスタンスだけでなくクラスター全体を使用するようにするにはどうすればよいですか?

EMR での Spark 構成に固有のことは何もしませんでした。ネイティブ アプリを介して EMR にインストールするだけで、構成の最適化が自動的に処理されると思います。

ログでこれを見ました。これはallowLocal=false問題である可能性がありますが、それについては何も見つかりませんでした:

の実行時に続くいくつかのログにはcount、2 つの IP のみが示されています。