java - 特殊文字で区切られた Hadoop でテキストソースを読み取る方法

Question

私のデータ形式は、改行の代わりに \0 を使用しています。そのため、デフォルトの hadoop textLine リーダーは機能しません。特殊文字で区切られた行を読み取るように設定するにはどうすればよいですか?

LineReader を設定できない場合は、特定のストリームプロセッサ (tr "\0" "\n") を適用することが可能かもしれませんが、これを行う方法はわかりません。

score 2 · Accepted Answer

"textinputformat.record.delimiter"そのための構成プロパティがあります。このプロパティ値を「\0」に変更すると、デフォルトの EOL (「\n」) 区切り文字を変更できます。

Spark でデフォルトの区切り文字を変更することについても同様の質問があり、これも役立つ場合があります。

score 1 · Accepted Answer

\0の代わりにデータを分割する独自の InputFormat クラスを作成できます\n。その方法のウォークスルーについては、ここをチェックしてください: http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat

その要点は、デフォルトのInputFormatクラスまたはそのサブクラスのいずれかをサブクラス化し、RecordReaderカスタムルールを使用して独自に定義する必要があるということです。詳細については、InputFormat のドキュメントを参照してください。

score 0 · Accepted Answer

InputFormatこれにより、独自のなどを作成する必要がなくなります。

java - 特殊文字で区切られた Hadoop でテキスト ソースを読み取る方法