単純な文字シーケンス ( など) を含むゲノム データベースがあります>chr1 AGTGTCA.....
。ここで、次のように標準のFASTQ 形式に変換したいと思います。
@HWUSI-EAS594-R:1:3:1453:1350#0/1
CCCAGTTCCGACGATCGATTTGCACGTCAGAATCGCTACGGACCTCCATCAGGGTTTCCCCTGACTTCGTCCTGACCAGG
+
ea^cdfdffgggggggggggeggggdggdffgdbdgddgggg`g^dfbfgdggcfbgfffcb]gffbfcfcefbbBBBB
このタイプの形式について明確な考えがないため、変換できません。上記の例のように、単純な文字シーケンスを FASTQ 形式に変換するにはどうすればよいですか?
具体的には、私は尋ねています:
- エンコーディングを行う既存のコードはありますか?
- そうでない場合、FASTQ で文字シーケンスをエンコードするにはどうすればよいですか? この形式は何を意味し、どのように作成できますか?