python - Hadoop ストリーミングの複数行入力

Question

いくつかの Hadoop ストリーミングジョブにDumboを使用しています。それぞれ記事 (複数行テキスト) といくつかのメタデータを含む JSON 辞書がたくさんあります。Hadoop は大きなファイルを提供するときに最適なパフォーマンスを発揮することを知っているので、すべての JSON 辞書を 1 つのファイルに連結したいと考えています。

問題は、改行で分割するのではなく、各辞書/記事を個別の値として Hadoop に読み込ませる方法がわからないことです。Hadoop にカスタムレコードセパレータを使用するように指示するにはどうすればよいですか? それとも、すべての JSON 辞書をリストデータ構造に入れ、Hadoop にそれを読み込ませることができるでしょうか?

それとも、文字列をエンコードする (base64?) と、すべての新しい行が削除され、通常の「リーダー」がそれを処理できるでしょうか?

score 1 · Accepted Answer

JSON ファイルを連結するときに、各辞書のすべての改行をスペクに置き換えることができます。改行は、空白文字であること以外に、JSON で特別な意味はありません。

python - Hadoop ストリーミングの複数行入力

2 に答える 2

Related

Reference