いくつかの Hadoop ストリーミング ジョブにDumboを使用しています。それぞれ記事 (複数行テキスト) といくつかのメタデータを含む JSON 辞書がたくさんあります。Hadoop は大きなファイルを提供するときに最適なパフォーマンスを発揮することを知っているので、すべての JSON 辞書を 1 つのファイルに連結したいと考えています。
問題は、改行で分割するのではなく、各辞書/記事を個別の値として Hadoop に読み込ませる方法がわからないことです。Hadoop にカスタム レコード セパレータを使用するように指示するにはどうすればよいですか? それとも、すべての JSON 辞書をリスト データ構造に入れ、Hadoop にそれを読み込ませることができるでしょうか?
それとも、文字列をエンコードする (base64?) と、すべての新しい行が削除され、通常の「リーダー」がそれを処理できるでしょうか?