java - HadoopジョブのUTF-8エンコーディングを指定する

Question

私が書いているHadoopの仕事では、マッパー/リデューサー用にUTF-8でエンコードされた文字列が必要です。システムエンコーディングとしてUTF-8を指定するにはどうすればよいですか？ローカルでコードを実行している場合は、実行できますがjava -Dfile.encoding="UTF-8"、実行しようとするhadoop jap myjar.jar -Dfile.encoding="UTF-8"と、機能しませんでした。

score 4 · Accepted Answer

問題は、マッパーJavaプロセスに -Dfile.encoding=UTF-8がないことであることがわかりました。これを「mapreduce.map.java.opts」に追加する必要がありました。「mapreduce.reduce.java.opts」についても同じです。

これは、XML構成ファイル、および次のようなJavaで実行できます。

config.set（ "mapreduce.map.java.opts"、 "-Xmx1843M -Dfile.encoding = UTF-8"）;

構成の詳細については、 http：//hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.htmlを参照してください。

score 2 · Accepted Answer

デフォルトでは、HadoopはUTF-8エンコーディングを使用するため、そのようなオプションを提供する必要はありません。キー/値に
使用すると仮定します。javadocTextによると：「このクラスは標準のUTF8エンコーディングを使用してテキストを格納します」

java - HadoopジョブのUTF-8エンコーディングを指定する

2 に答える 2

Related

Reference