ubuntuでhadoopをセットアップし、サンプルコードを実行してテストしました。一般的な例の 1 つは、https://github.com/tomwhite/hadoop-book/tree/master/ch02/src/main/pythonです。
サンプル ファイル ( https://github.com/tomwhite/hadoop-book/blob/master/input/ncdc/sample.txt ) を使用してこのコードをテストしました。ただし、データ ファイルに従ってマッパー コードを変更すると、リデューサーは 0% から 33% になり、その後 0% に戻ります。なぜそれが起こるのか、またはコードをどのように変更すればよいのか、誰でも助けてくれますか? 私のデータは次のようになります。
STN---,WBAN , YEARMODA, TEMP, , DEWP, , SLP , , STP , , VISIB, , WDSP, , MXSPD, GUST, MAX , MIN ,PRCP ,SNDP , FRSHTT,
690190,13910, 20120101, 42.9,18, 29.4,18, 1033.3,18, 968.7,18, 10.0,18, 8.7,18, 15.0, 999.9, 52.5*, 31.6*, 0.00I,999.9, 000000,