“sequencefile”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

2054 参照

scala - Spark:objectFileからCompactBufferを読み取る方法は?

オブジェクトファイルから次の構造を読み取っています。

私がこのように読もうとした場合：

次のエラーが発生しました。

ただし、objectFile を読み取るときに CompactBuffer を使用することはできません。

Eclipse は次のように教えてくれます。

では、objectFile からそのような CompactBuffer を読み取るにはどうすればよいでしょうか。ありがとうございました！

2015-08-22T21:20:54.857

0 投票する

0 に答える

1497 参照

protocol-buffers - protobuf のシリアル化されたデータを HDFS に格納するためのベストプラクティス

protobuf でエンコードされたデータを HDFS に格納するための推奨される方法は何ですか。現在、2 つの解決策が考えられます:
a) シーケンスファイル: シリアル化/エンコードされたバイナリデータ、つまり、シーケンスファイルの対応する値の "byte[]" を格納します。

b) Parquet: Parquet は protobuf/Parquet コンバーターを提供します。したがって、これらのコンバーターを使用する場合、まずバイナリデータをオブジェクト表現に逆シリアル化する必要があり、その後、そのオブジェクトを protobuf/Parquet コンバーターに渡して Parquet に格納する必要があると想定しています。そうすることで、ソリューション a) に比べてパフォーマンスコストが高くなると思います。大量の小さな protobuf でエンコードされたデータチャンク (Kafka によって提供されるストリーミングされた車両データ) を処理する必要があるため、パフォーマンスとメモリコストは重要な側面です。

c) 他の代替案はありますか?

要約すると、多くの小さな protobuf でエンコードされたデータチャンク (つまり、車両センサーデータ) を HDFS に保存して、生データをできるだけそのままにしておくソリューションを探しています。ただし、後で Map/Reduce または Spark を使用してデータを処理できるようにする必要があります。

ベスト、トーマス

protocol-buffers apache-kafka parquet sequencefile

2015-08-26T15:27:57.173

0 投票する

0 に答える

434 参照

key - Flume - HDFS SequenceFile のカスタムキーを作成する方法は?

HDFS にデータを書き込むために Flume の HDFS SequenceFile シンクを使用しています。「カスタムキー」を作成する可能性を探しています。デフォルトでは、Flume は Timestamp を SequenceFile 内のキーとして使用しています。ただし、私のユースケースでは、カスタマイズされた文字列を (タイムスタンプの代わりに) キーとして使用したいと考えています。

Flume 内でそのような「カスタムキー」を実装/構成するためのベストプラクティスは何ですか?

ベスト、トーマス

key hdfs flume sequencefile

2015-09-07T14:23:19.887

0 投票する

1 に答える

867 参照

hadoop - Hadoop SequenceFile と分割可能な LZO

生ログを保存するファイル形式を選択しています。主な要件は、圧縮され、分割可能であることです。これまでのところ、ブロック圧縮された (コーデックに関係なく) SequenceFilesとHadoop-LZOが最も適しているようです。

Map-Reduce で処理する方が効率的で、全体的に扱いやすいのはどれですか?

hadoop mapreduce sequencefile lzo

2015-10-10T22:28:55.813

0 投票する

1 に答える

79 参照

java - Hadoop SequenceFile - レコードの自動インクリメントキー

小さなファイルを保存するための「小さなデータベース」として SequenceFile を使用することを考えています。concurrency-client がこの SequenceFile に小さなファイルを保存し、一意の ID (レコードのキー) を取得できるようにする必要があります。

可能ですか？私はhadoopが初めてで、たくさん読んでいますが、それが可能かどうかわかりません。

はいの場合、そうでない場合は小さな例（または参考文献）を投稿してください。必要に応じて Hadoop で何ができますか?

java hadoop hdfs hadoop2 sequencefile

2015-10-27T10:45:48.853

0 投票する

1 に答える

8027 参照

python - PythonでHDFSシーケンスファイルからデータをロードする方法

以下のように、HDFS ファイルを読み取るためにマップ削減プログラムを実行しています。

パス /user/data/* にはファイルを含むフォルダーがあり、/user/data/* はすべてのサブフォルダーの下にあるすべてのファイルを繰り返します。

hdfs テキストファイルには各行の JSON 文字列が含まれているため、マッパーは次のようにファイルを読み取ります。

しかし、HDFS の所有者がファイルをテキストからシーケンスファイルに変更しました。map reduce プログラムがサイズ 0 のファイルを多数出力していることがわかりました。これはおそらく、HDFS からファイルを正常に読み取れなかったことを意味します。

sequencefile から読み取れるようにするには、コードに何を変更すればよいですか? mapreduce の出力に基づいて集計と並べ替えを実行するための HIVE 外部テーブルもあり、以前は HIVE が STORED AS TEXTFILE でしたが、 STORED AS SEQUENCEFILE に変更する必要がありますか?

ありがとう、

python hadoop mapreduce hive sequencefile

2015-11-13T01:43:53.890

0 投票する

0 に答える

468 参照

opencv - opencvとMrJobを使用してHadoopシーケンスファイルから画像を読み取る方法は?

tar-to-seq.jar を使用して、画像でいっぱいの tar ファイルからシーケンスファイルを作成しました。今度は、そのシーケンスファイルからバイトから画像を作成し、それらを分析したいと考えています。私はopencv 3.0.0とmrjob 0.5バージョンを使用しています。

cv2.imdecode() メソッドを使用して画像を読み取るのに問題があり、null 値を取得しています

この操作を実行した結果:

私は得ています：

そのシーケンスファイルに2731個の画像を詰め込んだので、うまく詰め込まれていると思いますが、どういうわけか画像として読み取ることができません。誰でも何か考えがありますか？

opencv hadoop mrjob sequencefile

2015-12-03T13:49:40.580

問題タブ [sequencefile]

Reference