0

次のコードをdumbo(Python)/haddophttps://github.com/klbostee/dumbo/wiki/Short-tutorial#jobs-and-runnersで実行しようとしてい ます

チュートリアルを正しく実行し、すべての手順を実行しましたが、hadoop環境でコードを実行すると、次のように出力として取得されます。

SEQ / org.apache.hadoop.typedbytes.TypedBytesWritable / org.apache.hadoop.typedbytes.TypedBytesWritable��������­ǡ�q����%�O�������������� �172.16.1.10������������������172.16.1.12������������������172.16.1.30���� ����

接続カウンター付きのIPアドレスのリストを返す必要があります。なぜそれらのキャラクターが現れるのですか?エンコーディングの問題ですか?どうすれば修正できますか?ありがとう

また、チュートリアルで他のプログラムを試してみると、同じ問題が発生します。

4

1 に答える 1

0

一人で答えます。その出力は、Dumboのシリアル化された形式です。エラーはありません。

それを読みやすいテキストに変換するには、followコマンドで十分です(答えはチュートリアルにありました!私はそれを見ませんでした)

dumbo cat ipcounts/part* -hadoop /usr/local/hadoop | sort -k2,2nr | head -n 5
于 2013-03-27T08:49:59.697 に答える