0

新規および既知の RNA と転写物を 10 KB 程度の配列で見つけたい。ensembl および UCSC ブラウザーでそのシーケンスに十分な注釈が付けられていない場合、バイオインフォマティクス ツールを使用して開始する最も簡単な方法は何ですか? スプライス EST と RNA シーケンス データは 1 つのオプションですか? 私はバイオインフォマティクスに不慣れです。あなたの提案は私にとって役に立ちます。

前もって感謝します

4

2 に答える 2

1

希望する最終製品または出力がどのように見えるかについては、少しわかりません。しかし、複数の配列アラインメントを行い、スコアの高いものを探すことをお勧めします。この 10KB のシーケンスに既知のシーケンスがいくつか含まれている可能性がありますが、それらは正確には一致しないため、単純な一致だけでなく、アラインメント スコアを提供するプログラムが必要になると思います。Perl とClustalを組み合わせて使用​​していますアラインメントを作成します。基本的に、これらのファイル形式のそれぞれの規則に従って、10KB シーケンスと対象の既知のシーケンスの両方を含む .fasta または .aln ファイルを作成する必要があります。プログラミングにあまり詳しくない場合は、clustal の GUI バージョンを使用できます。Perl を使用する場合は、.fasta ファイルのディレクトリ全体を調整するために私が作成したスクリプトを次に示します。一度に多くのアライメントを実行できます。注: このスクリプトが機能するには、最後の行 (システム コール) の clustal 実行可能パスを編集して、コンピューター上の場所と一致させる必要があります。

#!/usr/bin/perl 


use warnings;

print "Please type the list file name of protein fasta files to align (end the directory    path with a / or this will fail!): ";
$directory = <STDIN>;
chomp $directory;

opendir (DIR,$directory) or die $!;

my @file = readdir DIR;
closedir DIR;

my $add="_align.fasta";

foreach $file (@file) {
 my $infile = "$directory$file";
 (my $fileprefix = $infile) =~ s/\.[^.]+$//;
 my $outfile="$fileprefix$add";
 system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA";
}
于 2012-10-09T05:01:25.113 に答える
0

Linux サーバーまたはコンピューターをお持ちですか、それとも Web および Windows ベースのプログラムに依存していますか?

RNA-seq リードをアラインするには、一般に Tophat などのスプライス リード アライナを使用しますが、BLAST もおそらく機能します。

最初に、Linux でこれを行う方法を説明する長い回答を書きましたが、Galaxy は初心者にとってはるかに簡単なソリューションであることに気付きました。Galaxy は、非常にユーザー フレンドリーなインターフェイスを備えたオンライン バイオインフォマティクス ツールです。特に初心者向けに設計されています。この Web サイトでサインアップしてログインできます: https://main.g2.bx.psu.edu/

操作方法に関するチュートリアルがあります (「ヘルプ」メニューを参照) が、実験の基本的なワークフローは次のようになります。

  • ギャラクシーにログイン
  • RNA-seq リード、EST リード、および 10K ゲノム配列をアップロード
  • 左側のメニューで、[NGS-RNA シーケンス] をクリックして展開し、[Tophat for Illumina (RNA-seq 読み取りがイルミナ fastq 読み取りであると仮定)] をクリックします。
  • Tophat を使用して RNA-seq リードをアラインし、参照ゲノムとして 10K 配列を選択してください。
  • EST 読み取りをプログラムの 1 つに合わせてみてください。これがどれほど成功するかはわかりません.Tophatは長いシーケンスで動作するように設計されていないため、これを機能させるには少し遊びが必要か、少し創造的である必要があるかもしれません.
  • Cufflinks を使用して、RNA-seq リードおよび/または EST 配列に基づいて、新しい遺伝子モデルの注釈を作成します。

出力の表示に関しては、Windows のカスタム リファレンス シーケンスで何が利用できるかわかりません。少し調べてみる必要があるかもしれません。Linux/Mac の場合は、IGV をお勧めします。

于 2013-01-09T11:21:00.250 に答える