5

タスク:
共通のサブシーケンスパターンを共有するクラスで短いDNAフラグメントの大きなプールをクラスター化し、各クラスのコンセンサスシーケンスを見つけます。

  • プール:およそ 300シーケンスフラグメント
  • フラグメントあたり8〜20文字
  • 4つの可能な文字:a、g、t、c
  • 各フラグメントは、次の3つの領域で構成されています。
    1. 5つの一般的な文字
    2. gとcの8つ以上の位置
    3. 5つの一般的な文字
      (正規表現として[gcta]{5}[gc]{8,}[gcta]{5}

計画:
マルチプルアラインメント(つまり、withClustalW2)を実行して、領域2の共通シーケンスとそのコンセンサスシーケンスを共有するクラスを見つけます。

質問:

  1. 私のフラグメントは短すぎますか?サイズを大きくするのに役立ちますか?
  2. 領域2は、そのシーケンスでパターンを表示するには、許可されている文字タイプが2つしかないため、均質すぎますか?
  3. このタスクのためにどの代替方法またはツールを提案できますか?

よろしくお願いします、

サイモン

4

2 に答える 2

2

はい、これがヒトゲノムであり、本質的に特定の 8-mer を探しているだけであることを考えると、300 は少なすぎます。ゲノムには 65,536 の可能性のある 8-mer と 3,000,000,000 の固有の塩基があります (遺伝子またはコーディング領域だけでなく、ゲノム全体を見ていると仮定すると)。シーケンスを含む G/C が 3,000,000,000 / 65,536 * 2^8 =~ 12,000,000 回見つかります (ゲノムは他のものと比較して CpG アイランドでいっぱいであるため、おそらくそれ以上です)。なぜ300だけを選ぶのですか?

このタスクに正規表現を使用したくありません。染色体 1 から始めて、最初の CG または GC を探し、最初の非 G または C が得られるまで延長します。次に、そのシーケンスとそのコンテキストを取得して、(DB に) 保存します。すすいで繰り返します。

このプロジェクトでは、Clustal はやり過ぎかもしれませんが、あなたの目的がわからないので確信が持てません。GC リージョンのみに関心がある場合は、次のように簡単なクラスタリングを行うことができます。

  1. 各 G/C 8-mer (2^8 = 256 全体で) のデータベース エントリを作成します。
  2. 各 GC 領域を取り、それを歩いて、どの 8-mer が含まれているかを確認します。
  3. 各 GC 領域に含まれるシーケンスをタグ付けします。

これで、8 mer ごとに、それを含む数千の配列ができました。データの分析はあなたの目的に任せます。

于 2009-11-16T05:59:13.290 に答える
1

2文字のリージョン2は、少し似すぎてしまう可能性があります。長さや変動性を増やす(たとえば、文字を増やす)と役立つ場合があります。

于 2009-10-02T13:17:56.020 に答える