こんにちは、新しく構築されたバイオインフォマティクス アルゴリズムを Hadoop と Java で実装しようとしています (実装できるかどうかはわかりません)。Hadoop でアルゴリズムを実装するために、インターネット上で多くのことを検索しました。しかし、私が見つけたのは「並列タスクを特定し、hadoop で実行する」ことだけです。インターネット経由で Java を使用した Hadoop の適切なリソースに案内していただければ、単語数以外の確かな例を見つけることができます。Javaはよく知っていますが、hadoopは初めてです。どんな助けでも大歓迎です。
これが私がやりたいことです
ランダム化された文字行 (A、G、T、C) を含む非常に大きなテキスト ファイル (約 100 MB) があります。ランダム化された A、G、T、C の長いシーケンスは、たとえば ( ATCGAGC)。このシーケンス k-mer は、この「r」というテキスト ファイルの多くの行にあるかもしれません。
次のタスクを実行する必要があります
R (セット/ファイル全体) のテキスト (r) のすべての行で、さまざまな k-mer の位置を特定します。
特定の r における k-mer の位置を追跡する必要があります。
さまざまな r の k-mer を比較するために使用される 2 つのパラメーターがあります。
2 つの 'r' の k-mer が上記のパラメーター比較を満たす場合、隣接セット N を更新する必要があります
興味がある場合は、これが疑似コードです。
Given k, ĥ, ȇ
1. Make K by extracting all possible kmers from Reads
2. for all reads r belongs R do
construct Gk[r] by scanning through r
end for
3. for all k ε K do
for all read pairs (r,s) ε Gk × GK
if h(r,s) ≥ ĥ and dk < ȇ h(r,s) then
update the N
end if
end for
end for
k is k-mer
K is set of all k
ĥ minimum overlap distance
ȇ maximum mismatch tolerance
N neighbor set
h(r,s) overlap length of r and s wrt k
d(r,s) distance between r and s