csv - Hadoop アプリケーションでの CSV ファイルの読み取りと書き込み

Question

カスタム csv ファイルを入力として処理し、csv ファイルを HDFS に書き戻す必要があります。実数が発生する map reduce クラス内で直接これを行うことはできますか?

csv ファイルを処理するために、opencsv ライブラリを使用しています。inputformat フラグと outputformat フラグを使用して、ユーザー定義の形式を処理する Java クラスを指定するチュートリアルを見てきました。csvファイルの操作方法について誰かアドバイスをください。

Hadoop が提供するものに固執したいのですが、そうしないと、入力および出力形式の独自の実装により、処理が遅くなる可能性があります。

score 4 · Accepted Answer

問題は、複数行の csv が必要かどうかです。
必要がない場合は、バニラの TextInputFormat と TextOutputFormat を使用し、マッパー内で opencsv を使用して行を解析できます。出力については、 TextOutputFormat も問題あり
ません。複数行が必要な場合は、論理レコードを組み立てるためにいくつかのハックを行う必要があります。独自の入力形式を作成するか、マッパー内で行うことができます。

csv - Hadoop アプリケーションでの CSV ファイルの読み取りと書き込み

1 に答える 1

Related

Reference