新規および既知の RNA と転写物を 10 KB 程度の配列で見つけたい。ensembl および UCSC ブラウザーでそのシーケンスに十分な注釈が付けられていない場合、バイオインフォマティクス ツールを使用して開始する最も簡単な方法は何ですか? スプライス EST と RNA シーケンス データは 1 つのオプションですか? 私はバイオインフォマティクスに不慣れです。あなたの提案は私にとって役に立ちます。
前もって感謝します
新規および既知の RNA と転写物を 10 KB 程度の配列で見つけたい。ensembl および UCSC ブラウザーでそのシーケンスに十分な注釈が付けられていない場合、バイオインフォマティクス ツールを使用して開始する最も簡単な方法は何ですか? スプライス EST と RNA シーケンス データは 1 つのオプションですか? 私はバイオインフォマティクスに不慣れです。あなたの提案は私にとって役に立ちます。
前もって感謝します
希望する最終製品または出力がどのように見えるかについては、少しわかりません。しかし、複数の配列アラインメントを行い、スコアの高いものを探すことをお勧めします。この 10KB のシーケンスに既知のシーケンスがいくつか含まれている可能性がありますが、それらは正確には一致しないため、単純な一致だけでなく、アラインメント スコアを提供するプログラムが必要になると思います。Perl とClustalを組み合わせて使用していますアラインメントを作成します。基本的に、これらのファイル形式のそれぞれの規則に従って、10KB シーケンスと対象の既知のシーケンスの両方を含む .fasta または .aln ファイルを作成する必要があります。プログラミングにあまり詳しくない場合は、clustal の GUI バージョンを使用できます。Perl を使用する場合は、.fasta ファイルのディレクトリ全体を調整するために私が作成したスクリプトを次に示します。一度に多くのアライメントを実行できます。注: このスクリプトが機能するには、最後の行 (システム コール) の clustal 実行可能パスを編集して、コンピューター上の場所と一致させる必要があります。
#!/usr/bin/perl
use warnings;
print "Please type the list file name of protein fasta files to align (end the directory path with a / or this will fail!): ";
$directory = <STDIN>;
chomp $directory;
opendir (DIR,$directory) or die $!;
my @file = readdir DIR;
closedir DIR;
my $add="_align.fasta";
foreach $file (@file) {
my $infile = "$directory$file";
(my $fileprefix = $infile) =~ s/\.[^.]+$//;
my $outfile="$fileprefix$add";
system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA";
}
Linux サーバーまたはコンピューターをお持ちですか、それとも Web および Windows ベースのプログラムに依存していますか?
RNA-seq リードをアラインするには、一般に Tophat などのスプライス リード アライナを使用しますが、BLAST もおそらく機能します。
最初に、Linux でこれを行う方法を説明する長い回答を書きましたが、Galaxy は初心者にとってはるかに簡単なソリューションであることに気付きました。Galaxy は、非常にユーザー フレンドリーなインターフェイスを備えたオンライン バイオインフォマティクス ツールです。特に初心者向けに設計されています。この Web サイトでサインアップしてログインできます: https://main.g2.bx.psu.edu/
操作方法に関するチュートリアルがあります (「ヘルプ」メニューを参照) が、実験の基本的なワークフローは次のようになります。
出力の表示に関しては、Windows のカスタム リファレンス シーケンスで何が利用できるかわかりません。少し調べてみる必要があるかもしれません。Linux/Mac の場合は、IGV をお勧めします。