あるファイルから単語を読み取り、別のファイルを検索できる Hadoop アプリケーションを構築したいと考えています。
単語が存在する場合 - 1 つの出力ファイルに書き込む必要がある単語が存在しない場合 - 別の出力ファイルに書き込む必要がある
Hadoop でいくつかの例を試しました。2つの質問があります
2 つのファイルはそれぞれ約 200 MB です。別のファイルのすべての単語をチェックすると、メモリ不足が発生する可能性があります。これを行う別の方法はありますか?
Hadoop の reduce フェーズの出力は 1 つのファイルにしか書き込まれないため、異なるファイルにデータを書き込む方法。データを異なる出力ファイルに書き込むために、reduce フェーズのフィルターを使用することは可能ですか?
ありがとうございました。