ファイルを入力として受け取るhadoopアプリケーションと、いくつかのファイルを含む入力フォルダーを作成したいと思います。単一のファイルには、フォルダー内の他のファイルからレコードを選択して抽出する必要があるキーが含まれています。どうすればこれを達成できますか?
ちなみに、私は実行中のhadoop mapreduceアプリケーションを持っています。このアプリケーションは、フォルダーへのパスを入力として受け取り、処理を実行して、結果を別のフォルダーに書き込みます。
私は、ファイルを使用して、特定のディレクトリ内の他のファイルから選択して抽出する必要のあるキーを取得する方法に固執しています。キーを含むファイルは大きなファイルであるため、メインメモリに直接収めることはできません。どうすればいいですか?
どうも!