私はすでにここや他のフォーラムを見てきましたが、私の質問に対する答えが見つかりませんでした. ターゲット エンリッチメント シーケンシング アプローチ用のベイトを設計し、参照として
A. thaliana を使用して、4 つの異なるゲノムからオーソロガス遺伝子座を MarkerMiner 検索の出力を得たいと考えています。
これらの出力アラインメントは、A. thaliana の注釈付き遺伝子ごとに個別の Fasta ファイルであり、私のデータセットからの配列がアラインされています。
スクリプトを実行して、4 つの入力データセットのうち少なくとも 2 つによってオーソロガスであることがサポートされている遺伝子座を除外しました。
しかし、今、私は困惑しています。
入力データはほとんどが RNAseq であるのに対し、リファレンスにはイントロンも含まれているため、私のアラインメントはギャップがあります。したがって、次のようになります。
AT01G1234567 ATCGATCGATGCGCGCTAGCTGAATCGATCGGATCGCGGTAGCTGGAGCTAGSTCGGATCGC MyData1
CGATGCGCGC-----------CGGATCGCGG---------------CGGATCGC
MyData2
CGCTGCGCGC------------GGATAGCGG--- ------------CGGATCCC
ベイトを効果的に設計するには、整列したすべてのパーツをファイルから抽出する必要があります。これにより、個別のファイルが作成されます。またはファイル内の個別の配置。MyData と Reference シーケンスの間でアラインされている部分で、ギャップのあるすべての部分が除外されています。これらの fasta ファイルは約 1300 個あるため、手動で行うことはできません。Python と Linux コマンド ライン ツールを使用したプログラミングの経験は少しありますが、これを行う方法が完全にわかりません。使用できるツールの種類や、考え出す必要があるアルゴリズムの種類について、ヒントをいただければ幸いです。ありがとうございました。乾杯