次の形式の一連のゲノム位置をテストしたいと思います。
chr4:154723876-154724615
chr6:139580853-139581090
chr18:30440532-30441569
それらがUTRまたはイントロンまたはエクソンまたは遺伝子間配列に位置するかどうかを確認したい. これらの座標がどの遺伝子のイントロン (など) にあるかについての情報は気にしません。
既知の遺伝要素 (エクソンなど) ごとに、ゲノム位置 (各染色体上のゲノムの開始位置と終了位置) が定義されていると想定しています。たとえば、Ensembl にはゲノム内の各エクソンの ID があるため、これがエクソンとイントロンに当てはまることはわかっています。 Mus musclulus の Amy1 遺伝子のエクソンとイントロンの例を参照してください。上記の場所のリストを使用して、そのような場所のデータベースにクエリを実行し、2 つの間に重複がある場合 (理想的には、少なくとも 10bp の重複を指定できる必要がありますが、そうでない場合は問題ありません) 、ヒットするはずです(はい、この領域はエクソン/イントロン/にあります)
そして、ハンディキャップは、私がこれらの場所を数千持っていることであり、理想的にはそれらを一度にクエリし、出力として各場所に「イントロン/エクソン/utr/遺伝子間」が割り当てられるテーブルを用意したいと考えています. 生物はハツカネズミで、位置はゲノム全体からのものです。
どこから始めればよいかわからないため、今のところ、私がやろうとしていることのコードサンプルを提供することはできません.パッケージまたはそれに基づいて構築する何かがあれば、解決策を見つけるのに役立ちます.
Rでできれば完璧ですが、私の知る限り、biomaRtではできず、それを行うためのパッケージが見つかりませんでした。私はGalaxyのことを考えましたが、彼らの自明ではない方法と彼らが生み出す奇妙な出力を考えると、むしろRに固執したいと思います.あなたが知っている悪魔など.
助けていただければ幸いです。