5

次の形式の一連のゲノム位置をテストしたいと思います。

chr4:154723876-154724615
chr6:139580853-139581090
chr18:30440532-30441569

それらがUTRまたはイントロンまたはエクソンまたは遺伝子間配列に位置するかどうかを確認したい. これらの座標がどの遺伝子のイントロン (など) にあるかについての情報は気にしません。

既知の遺伝要素 (エクソンなど) ごとに、ゲノム位置 (各染色体上のゲノムの開始位置と終了位置) が定義されていると想定しています。たとえば、Ensembl にはゲノム内の各エクソンの ID があるため、これがエクソンとイントロンに当てはまることはわかっています。 Mus musclulus の Amy1 遺伝子のエクソンとイントロンの例を参照してください。上記の場所のリストを使用して、そのような場所のデータベースにクエリを実行し、2 つの間に重複がある場合 (理想的には、少なくとも 10bp の重複を指定できる必要がありますが、そうでない場合は問題ありません) 、ヒットするはずです(はい、この領域はエクソン/イントロン/にあります)

そして、ハンディキャップは、私がこれらの場所を数千持っていることであり、理想的にはそれらを一度にクエリし、出力として各場所に「イントロン/エクソン/utr/遺伝子間」が割り当てられるテーブルを用意したいと考えています. 生物はハツカネズミで、位置はゲノム全体からのものです。

どこから始めればよいかわからないため、今のところ、私がやろうとしていることのコードサンプルを提供することはできません.パッケージまたはそれに基づいて構築する何かがあれば、解決策を見つけるのに役立ちます.

Rでできれば完璧ですが、私の知る限り、biomaRtではできず、それを行うためのパッケージが見つかりませんでした。私はGalaxyのことを考えましたが、彼らの自明ではない方法と彼らが生み出す奇妙な出力を考えると、むしろRに固執したいと思います.あなたが知っている悪魔など.

助けていただければ幸いです。

4

4 に答える 4

0

NCBIには染色体マップビューアがあります

http://www.ncbi.nlm.nih.gov/mapview/maps.cgi?TAXID=9606&CHR=4&MAPS=ideogr,morbid[11164.00%3A11170.00]&QSTR=EVC%20OR%20HD%20OR%20FGFR3%20OR% 20SNCA%20OR%20NRCLP%20OR%20FOP&QUERY=uid(1968,2105,2886,6280,13348,20241,9026199,9026201,9026283,9026440,9027752,9027884)&ズーム=100

左側には、地域表示という 2 つの検索ボックスがあります。

于 2013-11-20T13:56:44.197 に答える
0

これは完全な答えではありませんが、これが役立つことを願っています。

バイオコンダクタ パッケージBSgenome.Mmusculus.UCSC.mm10には、マウス シーケンス (の最後のアセンブリ) が含まれています。これらの 2 つのレクチャー ( 12 ) は、この種のパッケージの使用方法を示しています。UCSCデータベースと連携するバイオコンダクターパッケージのGenomicFeaturesでエクソンとイントロンを取得できるようです。

これは良い方向性だと思います。これ以上の情報を見つける時間がありません。見つけた情報を共有してください。

于 2013-11-20T14:56:14.197 に答える
0

いつものように、物事を行うにはいくつかの方法がありますが、本当に速いのは HOMERannotatePeaks.plスクリプトを使用することです。HOMER スクリプトをダウンロードして、次のように呼び出すだけですannotatePeaks.pl

your_bed_file ゲノム > your_output_file.

ドキュメンテーションはリンク"genomic locations"にあります。注意して、HOMER が認識する列構造に従ってベッド ファイル (ファイルと呼ばれるもの) をフォーマットしてください。出力ファイルでは、 と呼ばれる列と、その座標を見つけるゲノム領域の情報を見つける"annotation"別の列が得られます。"detailed annotation"

(イントロン、エクソン、5'UTR、3'UTR、遺伝子間、ノンコーディング、GC アイランド...)

のほうが早いですが、Bedtools を使用して取得できる遺伝子一致の一部は、アノテーションが存在しないため、HOMER で検出されない可能性があります。これは私に起こりました。この場合、私がしたことは、 R を使用してbiomaRt、bedtools によって見つかったこれらの遺伝子の情報を HOMER アノテーションなしでダウンロードし、TSS、5'UTR、エクソンの開始と終了、および次に、「for if」ステートメントを使用してピーク r 結合位置の正確な位置を取得すると、ゲノム領域を見つけることができます。

于 2017-07-31T14:25:00.173 に答える