fastaファイルを並列に解析する方法を考えています。fasta-formatの例を知らない人のために:
>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
したがって、「>」で始まる行は、識別子に続くシーケンスの識別子を含むヘッダー行です。
ファイル全体をメモリにロードすると思いますが、この後、これらのデータを処理する方法を見つけるのに問題があります。
問題は次のとおりです。スレッドはこの方法でシーケンスを切断する可能性があるため、任意の位置から開始することはできません。
行が相互に依存しているときに、誰かがファイルを並行して解析した経験はありますか?どんなアイデアでも大歓迎です。