bioinformatics - 領域内の RNA と情報を見つける

Question

新規および既知の RNA と転写物を 10 KB 程度の配列で見つけたい。ensembl および UCSC ブラウザーでそのシーケンスに十分な注釈が付けられていない場合、バイオインフォマティクスツールを使用して開始する最も簡単な方法は何ですか? スプライス EST と RNA シーケンスデータは 1 つのオプションですか? 私はバイオインフォマティクスに不慣れです。あなたの提案は私にとって役に立ちます。

前もって感謝します

score 1 · Accepted Answer

希望する最終製品または出力がどのように見えるかについては、少しわかりません。しかし、複数の配列アラインメントを行い、スコアの高いものを探すことをお勧めします。この 10KB のシーケンスに既知のシーケンスがいくつか含まれている可能性がありますが、それらは正確には一致しないため、単純な一致だけでなく、アラインメントスコアを提供するプログラムが必要になると思います。Perl とClustalを組み合わせて使用していますアラインメントを作成します。基本的に、これらのファイル形式のそれぞれの規則に従って、10KB シーケンスと対象の既知のシーケンスの両方を含む .fasta または .aln ファイルを作成する必要があります。プログラミングにあまり詳しくない場合は、clustal の GUI バージョンを使用できます。Perl を使用する場合は、.fasta ファイルのディレクトリ全体を調整するために私が作成したスクリプトを次に示します。一度に多くのアライメントを実行できます。注: このスクリプトが機能するには、最後の行 (システムコール) の clustal 実行可能パスを編集して、コンピューター上の場所と一致させる必要があります。

#!/usr/bin/perl 


use warnings;

print "Please type the list file name of protein fasta files to align (end the directory    path with a / or this will fail!): ";
$directory = <STDIN>;
chomp $directory;

opendir (DIR,$directory) or die $!;

my @file = readdir DIR;
closedir DIR;

my $add="_align.fasta";

foreach $file (@file) {
 my $infile = "$directory$file";
 (my $fileprefix = $infile) =~ s/\.[^.]+$//;
 my $outfile="$fileprefix$add";
 system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA";
}

score 0 · Accepted Answer

Linux サーバーまたはコンピューターをお持ちですか、それとも Web および Windows ベースのプログラムに依存していますか?

RNA-seq リードをアラインするには、一般に Tophat などのスプライスリードアライナを使用しますが、BLAST もおそらく機能します。

最初に、Linux でこれを行う方法を説明する長い回答を書きましたが、Galaxy は初心者にとってはるかに簡単なソリューションであることに気付きました。Galaxy は、非常にユーザーフレンドリーなインターフェイスを備えたオンラインバイオインフォマティクスツールです。特に初心者向けに設計されています。この Web サイトでサインアップしてログインできます: https://main.g2.bx.psu.edu/

操作方法に関するチュートリアルがあります (「ヘルプ」メニューを参照) が、実験の基本的なワークフローは次のようになります。

ギャラクシーにログイン
RNA-seq リード、EST リード、および 10K ゲノム配列をアップロード
左側のメニューで、[NGS-RNA シーケンス] をクリックして展開し、[Tophat for Illumina (RNA-seq 読み取りがイルミナ fastq 読み取りであると仮定)] をクリックします。
Tophat を使用して RNA-seq リードをアラインし、参照ゲノムとして 10K 配列を選択してください。
EST 読み取りをプログラムの 1 つに合わせてみてください。これがどれほど成功するかはわかりません.Tophatは長いシーケンスで動作するように設計されていないため、これを機能させるには少し遊びが必要か、少し創造的である必要があるかもしれません.
Cufflinks を使用して、RNA-seq リードおよび/または EST 配列に基づいて、新しい遺伝子モデルの注釈を作成します。

出力の表示に関しては、Windows のカスタムリファレンスシーケンスで何が利用できるかわかりません。少し調べてみる必要があるかもしれません。Linux/Mac の場合は、IGV をお勧めします。

bioinformatics - 領域内の RNA と情報を見つける

2 に答える 2

Related

Reference