hdfs から抽出したいフィールドがいくつかあります。
現在、私はやっていhadoop fs -text /path/to/20120903/*-* 2>/dev/null | awk -F '\t' '{ print $16 }' | sort | uniq > users-0903
ます。
どうすればこれをスピードアップできますか (0904、0905 で実行する必要があり、これには時間がかかります)。
Hadoop ストリーミングをいくつか試みましたが、提供したスクリプトのほとんどが気に入らなかったようで、断念しました。ストリーミングを使用してこのタスクをどのように試みますか?