問題タブ [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Spark:objectFileからCompactBufferを読み取る方法は?
オブジェクトファイルから次の構造を読み取っています。
私がこのように読もうとした場合:
次のエラーが発生しました。
ただし、objectFile を読み取るときに CompactBuffer を使用することはできません。
Eclipse は次のように教えてくれます。
では、objectFile からそのような CompactBuffer を読み取るにはどうすればよいでしょうか。ありがとうございました!
protocol-buffers - protobuf のシリアル化されたデータを HDFS に格納するためのベスト プラクティス
protobuf でエンコードされたデータを HDFS に格納するための推奨される方法は何ですか。現在、2 つの解決策が考えられます:
a) シーケンス ファイル: シリアル化/エンコードされたバイナリ データ、つまり、シーケンス ファイルの対応する値の "byte[]" を格納します。
b) Parquet: Parquet は protobuf/Parquet コンバーターを提供します。したがって、これらのコンバーターを使用する場合、まずバイナリ データをオブジェクト表現に逆シリアル化する必要があり、その後、そのオブジェクトを protobuf/Parquet コンバーターに渡して Parquet に格納する必要があると想定しています。そうすることで、ソリューション a) に比べてパフォーマンス コストが高くなると思います。大量の小さな protobuf でエンコードされたデータ チャンク (Kafka によって提供されるストリーミングされた車両データ) を処理する必要があるため、パフォーマンスとメモリ コストは重要な側面です。
c) 他の代替案はありますか?
要約すると、多くの小さな protobuf でエンコードされたデータ チャンク (つまり、車両センサー データ) を HDFS に保存して、生データをできるだけそのままにしておくソリューションを探しています。ただし、後で Map/Reduce または Spark を使用してデータを処理できるようにする必要があります。
ベスト、トーマス
key - Flume - HDFS SequenceFile のカスタム キーを作成する方法は?
HDFS にデータを書き込むために Flume の HDFS SequenceFile シンクを使用しています。「カスタムキー」を作成する可能性を探しています。デフォルトでは、Flume は Timestamp を SequenceFile 内のキーとして使用しています。ただし、私のユースケースでは、カスタマイズされた文字列を (タイムスタンプの代わりに) キーとして使用したいと考えています。
Flume 内でそのような「カスタム キー」を実装/構成するためのベスト プラクティスは何ですか?
ベスト、トーマス
hadoop - Hadoop SequenceFile と分割可能な LZO
生ログを保存するファイル形式を選択しています。主な要件は、圧縮され、分割可能であることです。これまでのところ、ブロック圧縮された (コーデックに関係なく) SequenceFilesとHadoop-LZOが最も適しているようです。
Map-Reduce で処理する方が効率的で、全体的に扱いやすいのはどれですか?
java - Hadoop SequenceFile - レコードの自動インクリメント キー
小さなファイルを保存するための「小さなデータベース」として SequenceFile を使用することを考えています。concurrency-client がこの SequenceFile に小さなファイルを保存し、一意の ID (レコードのキー) を取得できるようにする必要があります。
可能ですか?私はhadoopが初めてで、たくさん読んでいますが、それが可能かどうかわかりません。
はいの場合、そうでない場合は小さな例(または参考文献)を投稿してください。必要に応じて Hadoop で何ができますか?
python - PythonでHDFSシーケンスファイルからデータをロードする方法
以下のように、HDFS ファイルを読み取るためにマップ削減プログラムを実行しています。
パス /user/data/* にはファイルを含むフォルダーがあり、/user/data/* はすべてのサブフォルダーの下にあるすべてのファイルを繰り返します。
hdfs テキスト ファイルには各行の JSON 文字列が含まれているため、マッパーは次のようにファイルを読み取ります。
しかし、HDFS の所有者がファイルをテキストからシーケンス ファイルに変更しました。map reduce プログラムがサイズ 0 のファイルを多数出力していることがわかりました。これはおそらく、HDFS からファイルを正常に読み取れなかったことを意味します。
sequencefile から読み取れるようにするには、コードに何を変更すればよいですか? mapreduce の出力に基づいて集計と並べ替えを実行するための HIVE 外部テーブルもあり、以前は HIVE が STORED AS TEXTFILE でしたが、 STORED AS SEQUENCEFILE に変更する必要がありますか?
ありがとう、
opencv - opencvとMrJobを使用してHadoopシーケンスファイルから画像を読み取る方法は?
tar-to-seq.jar を使用して、画像でいっぱいの tar ファイルからシーケンス ファイルを作成しました。今度は、そのシーケンス ファイルからバイトから画像を作成し、それらを分析したいと考えています。私はopencv 3.0.0とmrjob 0.5バージョンを使用しています。
cv2.imdecode() メソッドを使用して画像を読み取るのに問題があり、null 値を取得しています
この操作を実行した結果:
私は得ています:
そのシーケンスファイルに2731個の画像を詰め込んだので、うまく詰め込まれていると思いますが、どういうわけか画像として読み取ることができません。誰でも何か考えがありますか?