1

単純な文字シーケンス ( など) を含むゲノム データベースがあります>chr1 AGTGTCA.....。ここで、次のように標準のFASTQ 形式に変換したいと思います。

@HWUSI-EAS594-R:1:3:1453:1350#0/1 
CCCAGTTCCGACGATCGATTTGCACGTCAGAATCGCTACGGACCTCCATCAGGGTTTCCCCTGACTTCGTCCTGACCAGG
+   
ea^cdfdffgggggggggggeggggdggdffgdbdgddgggg`g^dfbfgdggcfbgfffcb]gffbfcfcefbbBBBB

このタイプの形式について明確な考えがないため、変換できません。上記の例のように、単純な文字シーケンスを FASTQ 形式に変換するにはどうすればよいですか?

具体的には、私は尋ねています:

  1. エンコーディングを行う既存のコードはありますか?
  2. そうでない場合、FASTQ で文字シーケンスをエンコードするにはどうすればよいですか? この形式は何を意味し、どのように作成できますか?
4

1 に答える 1

4

シーケンスのみがあり、シーケンス派生の品質(信頼性)スコアはないため、FASTQファイルを作成するための十分な情報がないと思います。(ただし、私はバイオインフォマティクスの専門家ではありません。)代わりに、シーケンス情報のみを含むFASTAファイル形式を引き続き使用する必要があります

于 2011-07-10T02:20:54.993 に答える