AWS S3 に 2 つのタブ区切りのデータセットが保存されています。共通キー (フィールド値のセット) に基づいてこれら 2 つのデータセットを結合する EMR ジョブを作成しようとしています。私の現在のバージョンでは、2 つのリストが作成され、行ごとに比較されます。共通キーを持つ行を出力します。私はPythonで書いていますが、2つのデータセットを結合するためにstdinを介して2つのファイルを取り込み、各行を互いに比較する背後にあるロジックを理解できないようです。私が見つけたドキュメントのほとんどは Java で書かれています。Amazon の EMR を使用してすべてのジョブを実行しています。どんな助けでも大歓迎です。
ありがとうございました