私は以下のデータセットを持っています。出力として最初の列の一意のリストを取得したい。{9719,382 ..} 各行の最後に整数があるため、最初と最後が数字であるかどうかを確認することは方法ではなく、解決策が思いつきませんでした。やり方を教えてもらえますか?詳しく教えていただけるとありがたいです。
id - - [date] "URL"
マッパーでは、各行を解析し、関心のあるトークン (例: 9719) をキーと値のペアのキーとして書き出す必要があります (この場合、値は関係ありません)。キーはレデューサーに送信する前にソートされるため、レデューサーで行う必要があるのは、値を繰り返し処理し、値が変更されるたびにそれを出力することだけです。
Hadoop にパッケージ化されているWordCount サンプルアプリは、必要なものに非常に近いものです。