問題タブ [fasta]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
218 参照

applescript - perl と ruby​​ スクリプトから AppleScript を作成しますか?

http://ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi#mainformからタンパク質配列をダウンロードします。ファイル名は FASTA.FA です。ファイル内のタンパク質ごとに、説明行が 1 行含まれており、70 文字ごとに新しい行で区切られたタンパク質配列が含まれています。

例:

>CAA47401 B/Yamagata/16/88 1988// NA MLPSTIQTLTLFLTSGGVLLSLYVSASLSYLLYSDILLKFSPTEITAPKVPLDCANASNVQAVNRSATKG MTLLLSEPEWTYPRLSCQGSTFQKALLISPHRFGESRGNSAPLIIREPFIACGPKECKHFALTHYAAQPG >AAB26739 Influenza B virus 1973// NA MLPSTIQTLTLFLTSGGVLLSLYVSASLSYLLYSDILLKFSPTKITAPTMSLDCANVSNVQAVNRSATKE DVPCIGIEMVHDGGKETWHSAATAIYCLMGSGQLLWDIVTGVAMAL

これを Excel により適したファイルに変換する Ruby スクリプトがあります。最初の行が 1 つのセルを取得し、タンパク質シーケンス全体が別のセルを取得します (perl は間にタブを作成し、Excel はタブで区切られたものを新しいセルに配置します)。 .

これは私のスクリプトです:

ファイルをダウンロードした Web サイトでは、最初の行のフォーマットを変更できます。各説明の間に「+」を含め、+ をタブに変換する perl スクリプトを用意しています (一部の説明にはスペースが含まれています)。 、したがって、区切りとしてスペースを使用することはできません)。

これらの 2 つのハックにより、適切な Excel ファイルが作成され、ドックにあるこれら 2 つのスクリプトから Automator プログラムが作成されました。

しかし、今、私のグループは、これから AppleScript を作成することを望んでいます。私がこれを正しく理解していれば、「do shell script」と入力してスクリプトを貼り付けるだけでは簡単ではありませんが、applescript が理解できるように実際のスクリプト自体をフォーマットする必要があります。誰かがこれを作成するのを手伝ってくれませんか?

ありがとう!

0 投票する
1 に答える
297 参照

perl - FASTA の完全一致の正確なカウントを取得するにはどうすればよいですか?

ゲノム配列のFASTA ファイルで、パターンwTTTAYRTTTW、ここでW=AまたはTY=CまたはTR=Aまたはを検索する必要があります。正確に一致する文字列とその位置など、多少の不一致が許容される必要があります。私のアプローチは次のとおりです。R

このコードによって検出された結果は、FASTA ファイル内の指定されたシーケンス NC_004314.2 に対して正確に一致するものではありません。一致数の合計は 829 である必要があります。このコードを修正できる人はいますか?

0 投票する
4 に答える
583 参照

regex - FASTAファイルで特定のパターンの発生のヒストグラムを作成するにはどうすればよいですか?

次のバイオインフォマティクスの質問のためにPerlスクリプトを作成しましたが、残念ながら出力に問題があります。

質問

1)40,000の一意のシーケンスのファイルから、一意はシーケンスID番号を意味し、次のパターンを抽出します

2)シーケンスごとに、次$patternの値の間に発生する かどうかを確認します。

  • 0〜100
  • 100〜200
  • 200〜300
  • ..。
  • 900-1000
  • 1000

特定のシーケンスの長さが1000文字未満の場合でも、除算を維持する必要があります。つまり、0〜100、100〜200などです。

問題

私が抱えている主な問題は、シーケンスの細分化ごとに$ patternが発生する回数をカウントし、次にすべてのシーケンスのカウントを加算することです。

たとえば、シーケンス1の場合、$patternが1000を超える長さで5回発生するとします。シーケンス2の場合、$patternが長さ>1000で3回発生するとします。その場合、合計数は5 + 3=8になります。

代わりに、私の結果は次のようになります:(5 + 4 + 3 + 2 + 1)+(3 + 2 + 1)= 21つまり、累積合計。

それぞれ100文字の最初の10個のサブディビジョンのカウントで同じ問題に直面しています。

この計算に正しいコードを提供できれば幸いです。

私が書いたコードは以下の通りです。これは、ここでの私の以前の質問の1つに対するボロディンの答えから大きく派生しています:Perl:配列要素全体でパターンを検索する

彼の答えはここにあります:https ://stackoverflow.com/a/11206399/1468737

コード

また、作業しているファイルの小さなセグメントを添付しています。これはタイトルが付けられsmall.faており、40,000を超えるシーケンスを含むより大きなファイルに移動する前にのみ、このファイルを実験してきました。

私の問題を解決するために時間を割いていただきありがとうございます。

任意のヘルプと入力を深くいただければ幸いです。

私の問題を解決するために時間を割いていただきありがとうございます!

0 投票する
1 に答える
459 参照

bioinformatics - fastaシーケンスを読み取るBioperl

私のfastaファイルが1行のシーケンスで終わっている場合、Bioperlによって返されるそのシーケンスには1つのヌクレオチドが欠落していることがわかりました。fastaファイルが新しい行で終わる場合、完全なシーケンスを返します。理由がわかりませんか?これは、fastaファイルが空の改行で終わるための要件ですか?

これは私が使用しているコードです

そしてfastaシーケンス:

gi | 37423 | emb | X04588.1 | 細胞骨格トロポミオシンTM30(nm)のヒト2.5 kb mRNA CCCTTTAAATTTCCCTTTAAATTTCCCTTTAAATTTT

0 投票する
5 に答える
10102 参照

python - 複数の.fastaファイルを連結する

何百もの.fastaファイルをすべてのシーケンスを含む単一の大きなfastaファイルに連結しようとしています。フォーラムでこれを達成するための特定の方法を見つけていません。私はhttp://zientzilaria.heroku.com/blog/2007/10/29/merging-single-or-multiple-sequence-fasta-filesからこのコードに出くわしましたが、これは少し適応させました。

Fasta.pyには次のコードが含まれています。

そして、これが.fastaファイルを連結するために適合されたスクリプトです:

fastaファイルを読み取ることはできますが、新しく作成された出力ファイルにはシーケンスが含まれていません。私が受け取るエラーはfasta.pyが原因で、これは私の能力を超えています。

助言がありますか?ありがとう!

0 投票する
8 に答える
9953 参照

python - fastaファイルを分割し、最初の行に基づいて名前を変更します

次の内容の巨大なファイルがあります。

ファイル名:input.txt

このファイルを、次のように4つの別々のファイルを取得するように分割する必要があります。

ファイル1:chr1.fa

ファイル2:chr2.fa

ファイル3:chr3.fa

ファイル4:chr2_random.fa

Linuxでcsplitを試しましたが、「>」の直後のテキストで名前を変更できませんでした。

0 投票する
4 に答える
12947 参照

r - Rパッケージseqinrを使用してfastaファイルを書きますか?

seqinr で write.fasta を使用すると、出力されるファイルは次のようになります。

つまり、シーケンス名はすべてファイルの先頭にあり、シーケンスはファイルの最後にまとめて出力されます。

私がやりたいことはこれです:

それは write.fasta で可能ですか?

0 投票する
1 に答える
156 参照

regex - ファイルのヘッダー行でパターンを検索し、次の行をPerlで連結する必要があります

私のmulti-fastaアーカイブは次の形式です。

私はPerlを初めて使用するので、等しい'>行'を検索し、次の行を連結してシーケンスを結合する必要があります。

上記のファイルに対して次の出力を期待しています。

これを行うための最良の方法は何ですか?

0 投票する
1 に答える
1194 参照

python - FASTAファイルからのジアミノ酸周波数(Bigram周波数)のカウント

大量のFASTAファイル(分泌ペプチドのさまざまな生物のペプチドーム)がある場合、Python(またはMatlab)を使用して(UNIProtから)FASTAファイルを読み取り、各アミノ酸とアミノ酸の頻度をカウントするにはどうすればよいですか? 「ダブル」ペアリング?

(IE-出力には、個々のアミノ酸の%(22文字/文字のうち)とアミノ酸のペアの頻度が含まれている必要があります。

事実上、文字ペアのバイグラム(または実装が簡単な場合はnグラム)の頻度をカウントしたいと思います。

22個のアミノ酸はそれぞれFASTAファイルで一意の文字で表され、各タンパク質の名前の前には>が付いています。(すでに解析されているため、関連する文字のみが残ります)

ファイルのサンプル:

FFKA

FLRN

MTTVSYVTILLTVLVQVLTSDAKATNNKRELSSGLKERSLSDDAPQFWKGRFSRSEEDPQ FWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQ FWKGRFSDGTKRENDPQYWKGRFSRSFEDQPDSEAQFWKGRFARTSSGEKREPQYWKGRF SRDSVPGRYGRELQGRFGRELQGRFGREAQGRFGRELQGRFGREFQGRFGREDQGRFGRE DQGRFGREDQGRFGREDQGRFGREDQGRFGREDQGRFGRELQGRFGREFQGRFGREDQGR FGREDQGRFGRELQGRFGREDQGRFGREDQGRFGREDLAKEDQGRFGREDLAKEDQGRFG REDIAEADQGRFGRNAAAAAAAAAAAKKRTIDVIDIESDPKPQTRFRDGKDMQEKRKVEK KDKIEKSDDALAKTS

どうもありがとうございます!

0 投票する
1 に答える
945 参照

java - GenBank形式ファイルのFASTA形式への変換

私は Java の初心者で、GenBank テキスト ファイルを FASTA 形式に変換できるプログラムを構築したいと考えています。基本的に 2 つのテキスト ボックスがあります。1 つは GenBank 形式のファイルをアップロードする場所、もう 1 つは変換された FASTA 形式のファイルを表示する場所です。

これは GenBank 形式のファイルです。

対応する FASTA 形式のファイルは次のとおりです。

GenBank ファイルをトリミングし、クリックしたボタンを使用して 2 番目のテキスト ボックスに表示する方法やコードに関するアドバイスを手伝ってくれる人はいますか。

Netbeans 6.9 を使用しています。