“sequencefile”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

136 参照

hadoop - Hadoop 入力形式

Hadoop 試験の準備中に、以下の質問に出くわしましたが、私は正解を理解できませんでした。質問についての正確性について確信が持てませんでした。

行番号、タブ文字、文字列の構造を持つファイルのディレクトリがあるとします。

各行を 1 つのレコードとして Mapper に送信します。行を完成させるためにどの InputFormat を使用しますか: setInputFormat (________.class);

答え：C

しかし、意見では、これを達成するためにまたはのいずれかをKeyValueTextInputFormat使用SequenceFileAsTextInputFormatすることもできます。

hadoop sequencefile

2015-03-16T04:32:23.513

0 投票する

1 に答える

393 参照

hadoop - FileNotFoundException シーケンスファイル Mahout

私はApache Mahout Cookbookを読んでいます。しかし、第 2 章で問題があり、シーケンスファイルを作成しています。私はMahout 0.9を使用しています

私が実行しているコマンドは次のとおりです。

しかし、次のエラーが発生します。

この例外を取得する理由を誰か教えてもらえますか? ありがとうございました！

2015-03-16T15:50:40.390

0 投票する

1 に答える

2330 参照

java - Spark でのキーと値のペアの保存と読み取り

次の形式の JavaPairRDD があります。

Key-Value 形式で保存したい(String, Tuple2< String, List< String>>)。

したがって、次のジョブはデータを my に直接読み込むことができますJavaPairRDD:

Java 7、Spark 1.2、Java API を使用しています。試しsaveAsTextFileてみましたがsaveAsObjectFile、どちらも機能しません。saveAsSequenceFileそして、私の日食にはオプションがありません。

この問題について何か提案はありますか？どうもありがとうございました！

java apache-spark object-files sequencefile

2015-04-06T00:10:38.577

0 投票する

1 に答える

665 参照

hadoop - フィールドの 1 つに基づいて複数のディレクトリ内の SequenceFile に Scalding TypedPipe を出力する

Hadoop で Scalding を使用しています。データフィールドの 1 つに基づいてチャンクで出力したい TypedPipe の形式の大きなデータセットがあります。

たとえば、データはで<category, field1, field2>、各カテゴリのデータを別のカテゴリの SequenceFile に格納する必要があります。outPath/cat1outPath/cat2

TemplatedTsvここでオプションについて読みました： Scaldingで出力をバケット化する方法

そしてここ: Scalding で Hive スタイルのディレクトリ構造でデータを出力する方法は?

ただし、これは、SequenceFile ではなく、Tsv ファイルが必要な場合にのみ機能します。

明らかにループが機能します：

TemplateTsvでは、ループを回避して、SequenceFile の書き込みで機能する同等の方法はありますか?

hadoop cascading scalding sequencefile

2015-05-10T10:08:07.450

0 投票する

1 に答える

1395 参照

hadoop - Hadoop をインストールせずにローカルファイルシステムに Hadoop シーケンスファイルを作成する方法は?

Hadoop をインストールせずに Java のみから Hadoop シーケンスファイルを作成することはできますか? シーケンスファイルをローカルに作成するスタンドアロンの Java プログラムが必要です。私の Java プログラムは、hadoop がインストールされていない環境で実行されます。

hadoop sequencefile

2015-05-15T09:39:36.953

0 投票する

1 に答える

461 参照

hadoop - シーケンスファイルは、ローカルファイルシステムと比較して、HDFS での読み取りのパフォーマンスを向上させるのに役立ちますか?

1000 個の小さなファイル (1 ～ 2 MB) について、HDFS とローカルファイルシステムのパフォーマンスを比較したいと考えています。シーケンスファイルを使用しない場合、HDFS はローカルファイルシステムと比較して、1000 個のファイルを読み取るのにほぼ 2 倍の時間を要します。ここでシーケンスファイルについて聞きました - HDFS の小さなファイルの問題これらのレコードを取得するための HDFS の応答時間が、ローカル FS よりも優れていることを示したいと思います。シーケンスファイルは役に立ちますか、それとも別のものを探すべきですか? (おそらくHBase)

編集: Java プログラムを使用して、ここのようなファイルを読み取りますHDFS Read through Java

hadoop filesystems hdfs performance-testing sequencefile

2015-06-29T17:29:49.670

0 投票する

0 に答える

113 参照

java - 作成されたシーケンスファイルが Hadoop で奇妙な出力を返す

いくつかの小さな bzip2 ファイルをシーケンスファイルに結合したいと考えています。シーケンスファイルを作成するコードを見て、試してみました。しかし、以下のように奇妙な出力が得られます。これは、bzip2 ファイルを読み取れないためですか?

コードは

私が渡す入力は Json.bzip2 ファイルです。奇妙な出力が得られる理由を誰かが指摘してください。

java hadoop mapreduce sequencefile

2015-07-01T22:46:28.370

0 投票する

0 に答える

288 参照

amazon-s3 - EMR で PySpark を使用して S3 から SequenceFiles を読み取ると、RACK_LOCAL ローカリティが発生します

EMR で PySpark を使用して、S3 で SequenceFiles として保存されているデータを分析しようとしていますが、データの局所性が原因でパフォーマンスの問題が発生しています。以下は、うまく動作しない非常に単純なサンプルです。

問題はcountアクションにあります。正常に動作しますが、タスクの分散は非常に貧弱です。何らかの理由で、Spark ログで、クラスターの 2 つの IP のみが実際の作業を行っており、残りはアイドル状態になっています。5 ノードクラスタと 50 ノードクラスタで試してみましたが、ログには常に 2 つの IP しか表示されません。

また、非常に奇妙なことに、これら 2 つの IP には RACK_LOCAL という局所性があります。データが S3 にあるためローカルではないためだと推測していますが、Spark が 2 つのインスタンスだけでなくクラスター全体を使用するようにするにはどうすればよいですか?

EMR での Spark 構成に固有のことは何もしませんでした。ネイティブアプリを介して EMR にインストールするだけで、構成の最適化が自動的に処理されると思います。

ログでこれを見ました。これはallowLocal=false問題である可能性がありますが、それについては何も見つかりませんでした:

の実行時に続くいくつかのログにはcount、2 つの IP のみが示されています。

amazon-s3 apache-spark sequencefile

2015-07-18T00:35:24.133

問題タブ [sequencefile]

Reference