いくつかのデータのバイグラムに関する統計を収集するための簡単なプログラムを作成しました。統計をカスタムファイルに出力します。
Path file = new Path(context.getConfiguration().get("mapred.output.dir") + "/bigram.txt");
FSDataOutputStream out = file.getFileSystem(context.getConfiguration()).create(file);
私のコードには次の行があります:
Text.writeString(out, "total number of unique bigrams: " + uniqBigramCount + "\n");
Text.writeString(out, "total number of bigrams: " + totalBigramCount + "\n");
Text.writeString(out, "number of bigrams that appear only once: " + onceBigramCount + "\n");
私はvim/geditで次の出力を取得します:
'total number of unique bigrams: 424462
!total number of bigrams: 1578220
0number of bigrams that appear only once: 296139
行頭の不要な文字とは別に、印刷されない文字もいくつかあります。この背後にある理由は何でしょうか?