問題タブ [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - grepを使用してファイルが有効なFASTAであるかどうかをテストします(つまり、単一の正規表現に一致する完全なファイル)
指定されたファイルが有効なFASTAであるかどうかをテストする簡単な方法は何ですか?
valid_example.fasta
私は次のことを試しましたが、すべてではなく、少なくとも1つの有効な遺伝子があれば一致します
python - Biopython (Python) を使用して FASTA ファイルから配列を抽出する
わかりましたので、Python (biopython、http://biopython.org/DIST/docs/tutorial/Tutorial.html) を使用して、FASTA ファイルからシーケンスの一部を抽出する必要があります。
各配列から最初の 10 塩基を取得し、それらを 1 つのファイルに入れ、FASTA 形式の配列情報を保持する必要があります。最悪の場合、配列情報を保持する方法がない場合は、塩基を使用することもできます. 次に例を示します。
最初の 10 塩基を取得する何らかの方法が必要です (そして、最後の 10 塩基に対して再度実行することを計画していました)。そのチュートリアルサイトはかなり徹底していますが、私はこれに慣れていません。これには触れていないので、可能かどうかさえわかりません. ご協力いただきありがとうございます。
python - python/biopython を使用して混合 fasta ファイルを翻訳する
だから私は、データベースから一連の配列を取得し、それらを fasta ファイルにダウンロードするプログラムを持っています。問題は、これらの配列がタンパク質であるか、DNAである可能性があることです。大きな fasta ファイルを多くの小さな fasta ファイルに分割しています。配列を取得したら、それらをすべてタンパク質にする必要があります。だから私はそれがタンパク質であるかどうかを確認するためにそれぞれをテストしたい.
それらがすべてタンパク質である場合、私は大丈夫です。それらがすべてDNAである場合、それらすべてを翻訳するエレガントな方法がありますが、新しいfastaファイルをそれぞれテストし、翻訳し、翻訳する方法を見つける必要があります. DNAファイルを置き換える
これが私がこれまでに持っているものです:
私はそれを文字列に設定しようとしましたが(私は思う)、アルファベットを使用することはできません.fastaがフォーマットされている方法ではないため、他の多くのことを試しました. とにかく、助けていただければ幸いです。
よく知らない人のために説明すると、fasta ファイルは次の形式です。
bash - awk と条件付きパイプを使用して qsub ジョブを送信する方法は?
awk を使用して必要なフィールド (ヘッダーを含むシーケンス) を抽出するファイル (fasta) があります。それを BLAST プログラムにパイプし、最後にジョブを送信するために qsub にパイプします。ファイル:
およびコマンド(動作します):
私がやりたいことは、ジョブが送信される特定のしきい値を下回っている場合に、実行中のジョブの数を (qstat を使用して) サンプリングする条件を追加することです。例えば:
残念ながら(とにかく私にとって)私はそれをしようとするすべての試みに失敗しました。どんな助けにも感謝します
編集:少し詳しく説明します:私がやろうとしているのは、fastaファイルからこれを抽出することです:
または基本的に: >HEADER\nSEQUENCE 1 つずつ、stdin を取ることができる blast プログラムにパイプします。シーケンスごとに一意のジョブを作成したいので、シーケンスごとに qsub にパイプする必要があります。簡単に言うと、qsub の送信は次のようになります。
stdin シーケンスがパイプされている場合、-query フラグは不要であることに注意してください。ただし、私にとっての主な問題は、qstat の結果がしきい値を下回った場合にのみシーケンスが qsub にパイプされるように、上記の条件を組み込む方法です。理想的には、qstat の結果がしきい値を超えている場合は、i が下回るまでスリープ状態になり、それを前方に渡します。
ありがとう。
perl - 複数のPerlプログラムをすぐにインストールできるソフトウェアに変換するにはどうすればよいですか?
私は自分で書いた複数のperlプログラムを持っています。これらのプログラムは、ゲノムパラメーターの計算、ヘッダーの変更、ゲノムデータまたはfasta配列からの特定の配列の抽出を行います。メニューのボタンをクリックしてperlプログラムを使用して上記のことを計算するパッケージ/ソフトウェアを構築する方法はありますか?
python - Filtering a FASTA file based on sequence with BioPython
I have a fasta file. From that file, I need to get the only sequences containing GTACAGTAGG
and CAACGGTTTTGCC
at the end and/or start of the sequence and put them in a new fasta file. So here's an example:
(*
added for highlighting)
I need some way to get the only sequences containing GTACAGTAGG and CAACGGTTTTGCC at the end and/or start of the sequences and get them out in a new fasta file. I'm very new to this. I'm not even sure if it can be done. Thanks in advance for any help you can give.
perl - 入力中にFASTA形式のファイルから最初の行を削除するにはどうすればよいですか?
FASTAファイルから入力中の最初の行を削除して、プログラムが入力としてアミノ酸配列のみを取得するようにします。
FASTAファイルの最初の行はで始まり>
、シーケンスの「アクセッション番号」とそのソースが含まれています。例えば:
python - contigs.fa から生成された 2 行をマージします。
アセンブラによって生成されたファイルがあります。以下のようです。
python または linux sed コマンドを使用して行をマージし、この方法で結果を取得したい。
すべてのシーケンスと同様に、単一の行と見なし、ノード名を他の行と見なします。
r - 複数の DNA 距離ファイルから同じグラフに複数のヒストグラムをプロットする方法は?
100 個の fasta ファイルがあり、遺伝的距離行列の重なり合うヒストグラムをプロットして、DNA データのブートストラップ複製間にどれだけの重なりがあるかを確認したいと思いますか?
次を使用して、各ファイルを ape に読み取らせる方法を見つけました。
次に、次を使用して、それぞれの遺伝的距離行列を生成します。
R コンソールから呼び出すと、遺伝的距離ファイルは次のようになります。
私が問題に遭遇するのは、各ブートストラップが同じウィンドウ内で他のブートストラップの上にプロットされるように、それぞれのヒストグラムをプロットすることです。以下のスクリプトは、それぞれを新しいウィンドウにプロットするだけで、重複しません。
これは、次の方法で難しい方法で実行できることを知っています。
.......最後のファイルへ
しかし、それは大変な作業になると思います。100 個のファイルには問題ありませんが、1,000 個のファイルを持っている他の人 (たとえば、GenBank データで作業している人など) の場合、これは多すぎるかもしれません。
また、いくつかの Unix を使用して別の方法で別のファイルを \t で区切られた列のリストに貼り付けることも試みました。
そのファイルは次のように表示されます。ファイルがどのように分離されているかを明確にするために、"" \t
しかし、read.dna を取得して各列を個別のデータ マトリックスとして読み取る方法がわかりません。read.table を取得してファイルを読み取ることができますが、そこでスタックしてしまいます
私は新しいRユーザーであるため、この時点で完全に困惑しています。これに対する解決策をオンラインでたくさん調べましたが、いくつかを含まないことがわかったものはないようです上で説明したようにこれを行うのが難しい方法の変形ですが、おそらく格子は仕事を成し遂げることができますか?
perl - perl シーケンス抽出ループ
ID の1 つの列ids.file
を含むテキスト ファイル (という名前)を読み取り、特別にフォーマットされた 2 番目のテキスト ファイル (この例では "fasta"という名前) を検索するのに素晴らしく機能する既存の perl ワンライナー (Edwards lab から) があります。バイオインフォマティクスを知っている人向けの形式) で、最初のファイルの ID に一致するシーケンスを返します。このスクリプトを拡張して、次の 2 つのことを追加したいと考えていました。fasta.file
- 現在の perl ワンライナーは、に 1 列のデータが含まれている場合にのみ機能するようです。
ids.file
2 つの列 (スペースで区切られている) を含むファイルで動作し、データの 2 番目の列 (まあ、実際にはデータの任意の列) で動作するようにしたいと思いますが、誰かが2番目の列を使用して例を挙げることができます) - 検索の出力から返された結果を、新しいファイルだけでなく、3 番目の列に追加したいと考えています。
誰かが親切に例を提供してくれたが、これらのいずれかに取り組む時間や傾向しかない場合は、#2 を解決することをお勧めします - awk のみを使用する for ループで #1 を解決することに近づいています。 2 番目の列の Perl コードを使用してください。まだ取得していませんが、近いので、#2 は私には難しいように思えます。
perl のワンライナーは次のとおりです。
私はあなたが与えることができる助けに感謝します!