1

いくつかの Hadoop ストリーミング ジョブにDumboを使用しています。それぞれ記事 (複数行テキスト) といくつかのメタデータを含む JSON 辞書がたくさんあります。Hadoop は大きなファイルを提供するときに最適なパフォーマンスを発揮することを知っているので、すべての JSON 辞書を 1 つのファイルに連結したいと考えています。

問題は、改行で分割するのではなく、各辞書/記事を個別の値として Hadoop に読み込ませる方法がわからないことです。Hadoop にカスタム レコード セパレータを使用するように指示するにはどうすればよいですか? それとも、すべての JSON 辞書をリスト データ構造に入れ、Hadoop にそれを読み込ませることができるでしょうか?

それとも、文字列をエンコードする (base64?) と、すべての新しい行が削除され、通常の「リーダー」がそれを処理できるでしょうか?

4

2 に答える 2

1

JSON ファイルを連結するときに、各辞書のすべての改行をスペクに置き換えることができます。改行は、空白文字であること以外に、JSON で特別な意味はありません。

于 2010-08-16T21:55:40.900 に答える