私はhadoopが初めてです。基本的に私は 3 GB 以上の 2 つの multifasta ファイル (ref.fasta、query.fasta) を取るプログラムを書いています.....
ref.fasta:
gi|12345 アタタタガガカカアタアアアアアアアアアアアアアアアアアアアアアアアア。
gi|5253623 AATTATCGCAGCATTA...
..等々..
クエリ.fasta:
クエリ ATTATTTAAAATCTCACACCACATAATCAATACA AATCCCCACCACAGCACACGTGATATATATACA CAGACACA...
各マッパーに、ref ファイルの 1 つの部分とクエリ ファイル全体を渡す必要があります。すなわち
gi|12345 ATATTATAGGACACCAATA.... (ref ファイルからの単一の fasta シーケンス)
ANDクエリファイル全体。これらの両方を入力として受け取るマッパー内でexeを実行したいためです。
ref.fasta を外部で処理してからマッパーに渡しますか?または他の何か..?? 最小限の時間がかかるアプローチが必要です。
ありがとう。