hadoop - 最小限の時間で複数のファイルを処理する

Question

私はhadoopが初めてです。基本的に私は 3 GB 以上の 2 つの multifasta ファイル (ref.fasta、query.fasta) を取るプログラムを書いています.....

ref.fasta:

gi|12345 アタタタガガカカアタアアアアアアアアアアアアアアアアアアアアアアアア。

gi|5253623 AATTATCGCAGCATTA...

..等々..

クエリ.fasta:

クエリ ATTATTTAAAATCTCACACCACATAATCAATACA AATCCCCACCACAGCACACGTGATATATATACA CAGACACA...

各マッパーに、ref ファイルの 1 つの部分とクエリファイル全体を渡す必要があります。すなわち

gi|12345 ATATTATAGGACACCAATA.... (ref ファイルからの単一の fasta シーケンス)

ANDクエリファイル全体。これらの両方を入力として受け取るマッパー内でexeを実行したいためです。

ref.fasta を外部で処理してからマッパーに渡しますか?または他の何か..?? 最小限の時間がかかるアプローチが必要です。

ありがとう。

score 0 · Accepted Answer

同様の問題に直面しました。

ref ファイルを前処理し、複数のファイル (シーケンスごとに 1 つ) に分割することをお勧めします。次に、これらのファイルを hdfs のフォルダーにコピーします。このフォルダーは、メインメソッドで入力パスとして設定します。次に、カスタム入力形式クラスとカスタムレコードリーダークラスを実装します。レコードリーダーは、ローカルファイル分割パスの名前を (テキスト値として) マップメソッドのキーまたは値パラメーターに渡すだけです。

すべてのマップ関数で必要なクエリファイルについては、再度クエリファイルを hdfs に追加してから、main メソッドの DistributedCache に追加します。map メソッドでは、両方のローカルファイルパスにアクセスし、それらを exe に渡すことができます。

それが役立つことを願っています。

同様の問題があり、最終的にブラスト exe ファイルの機能を再実装して、map メソッドでファイルの読み取りを処理する必要がなくなり、代わりに、カスタムレコードリーダーでファイルを入力し、マップ関数にオブジェクトとして渡します。

乾杯、ウェイン。

score 0 · Accepted Answer

ユースケースに最適な方法は、クエリファイルを分散キャッシュに格納し、ファイルオブジェクトをconfigure()/setup()で使用できるようにすることmap()です。そして、通常の入力としてrefファイルを持っています。

次の操作を実行できます。

run()クエリファイルを分散キャッシュに追加します。

DistributedCache.addCacheFile(new URI(queryFile-HDFS-Or-S3-Path), conf);

マッパークラスを次のようにします。

public static class MapJob extends MapReduceBase implement Mapper { File queryFile;

    @Override
    public void configure(JobConf job) {

        Path queryFilePath = DistributedCache.getLocalCacheFiles(job)[0];
                    queryFile = new File(queryFilePath.toString());
            }

            @Override
    public void map(LongWritable key, Text value, OutputCollector<Text, Text> output, Reporter reporter)
            throws IOException {
            // Use the queryFile object and [key,value] from your ref file here to run the exe file as desired.
            }
}

hadoop - 最小限の時間で複数のファイルを処理する

2 に答える 2

Related

Reference