タスク:
共通のサブシーケンスパターンを共有するクラスで短いDNAフラグメントの大きなプールをクラスター化し、各クラスのコンセンサスシーケンスを見つけます。
- プール:およそ 300シーケンスフラグメント
- フラグメントあたり8〜20文字
- 4つの可能な文字:a、g、t、c
- 各フラグメントは、次の3つの領域で構成されています。
- 5つの一般的な文字
- gとcの8つ以上の位置
- 5つの一般的な文字
(正規表現として[gcta]{5}[gc]{8,}[gcta]{5}
)
計画:
マルチプルアラインメント(つまり、withClustalW2)を実行して、領域2の共通シーケンスとそのコンセンサスシーケンスを共有するクラスを見つけます。
質問:
- 私のフラグメントは短すぎますか?サイズを大きくするのに役立ちますか?
- 領域2は、そのシーケンスでパターンを表示するには、許可されている文字タイプが2つしかないため、均質すぎますか?
- このタスクのためにどの代替方法またはツールを提案できますか?
よろしくお願いします、
サイモン