問題タブ [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
split - タンパク質 fasta ファイルを読み取り、読み取った文字列を Arginine(R) で分割してから、ペプチドを blastp して一致を取得しますか?
次の fasta ファイルがあります。
FASTA をループして、タンパク質配列をすべての 'R' で分割します。これにより、ペプチドが生成され、ペプチドが blastp されます。blastp から結果を取得し、fasta ファイル内のタンパク質 ID ごとに個別のファイルに blastp の結果を保存します。使用言語については特にこだわりはありません。その上にさらに多くの機能を構築できるように、これを行う方法を学びたいです。ありがとう!
python - 大きなfastaファイルに繰り返しアクセスしています。最もメモリ効率の良い方法は?
特定の座標から DNA シーケンスを引き出すことができるように、Biopython を使用して大きな単一エントリの fasta ファイル (514 メガ ベース) を開きます。シーケンスを返すのはかなり遅いので、私が理解していないこのタスクを実行するより高速な方法があるかどうか疑問に思っています。1 回か 2 回のヒットであれば速度は問題になりませんが、145,000 の座標のリストを反復処理しているので、数日かかります :/
regex - 一意のパターンで始まる行の文字を削除する
次のような多くのエントリで構成されるファイルがあります。
つまり、 > で始まるヘッダー行と、多数のシーケンス行の後にヘッダー行が続きます。>で始まる行のみに移動し(シーケンス行ではなく)、最初の10桁を除くすべてを削除するsedスクリプトを作成しようとしています。
これと似たような質問がたくさんありますが、私にはわかりません。私はこのコードのバリエーションを試してきました:
しかし、明らかにそれを正しく行っていません..
regex - 1 つのファイルで単語を grep し、その単語を使用して FASTA ファイルで一致させ、最初のファイルに FASTA シーケンスを追加します。
file1 のいくつかの単語を grep し、各単語を使用して、file2.fasta で一致した後に続くものを grep します。そして、file03 に使用した単語に一致の後に続くものを追加して、file03 に両方のファイルからの情報が含まれるようにします。私が持っているファイルの一部は次のとおりです。
ファイル1:
Fasta ファイル (file2) は次のようになります。
私が望む出力は、この例です:
ご覧のとおり、file2 に含まれている FASTA シーケンスを file1 に追加したいだけです。誰かがこれを行う方法を知っていれば、私はそれを大いに感謝します!
perl - perl による fasta ファイルのヘッダーの短縮 (減算) と空行の削除
次のようなヘッダーを持つ fasta ファイルがあります。
次のように、GL と 6 桁のみを含むようにヘッダーを変更し、各ヘッダーの上の空の行を削除します。
誰でもこのための perl スクリプトを共有できますか? ありがとう
python - 複数の行にまたがるデータ行に数式を適用する
私は、Python を少し学ぼうとする最初の一歩を踏み出したところです。現在、バイオインフォマティクスの Python スキルを教えることを目的とした Rosalind オンライン コースに取り組んでいます。(ちなみに非常に良いです。参照: rosalind.info)
私は1つの特定の問題に苦しんでいます。次の形式の FASTA 形式のファイルがあります。
ファイルの各エントリ (ヘッダーを除く) で G と C の割合を計算し、この数値を返す必要があります。例:
これまでの私のコードは次のとおりです。
これは、私が必要とするほとんどのことを行っています。シーケンスデータが複数行にまたがる場所で問題が発生しています。現時点では、各エントリに対して単一の数値を返すのではなく、ファイル内のすべての行の % GC コンテンツを取得しています。例:
複数の行にまたがるデータに数式を適用するにはどうすればよいですか?
前もって感謝します、
workflow - ワークフローが適切に機能するようにゲノム配列を短縮するにはどうすればよいですか?
ドイツのハイデルベルク大学のモリッツです。
私の学士論文では、肝細胞癌患者による 20 個の大きな (25 ~ 30 GB) ゲノム ファイル (.txt.gz) があります。Ubuntu サーバーに Bpipe をインストールしましたが、いくつかのアプローチを試す必要があります。
含まれる手順は次のとおりです。
- hg19.fasta に対するアライメント (BWA (Transform sai and sam))
- 変換 (samtols)
- 重複除外
私が抱えている問題は、bpipe ワークフローを試すために、30 GB のシーケンス全体を取得して、最初から開始する必要があることです。それには多くの時間がかかります。だから私の質問は:
1 つのファイルを短縮するにはどうすればよいですか?
パイプラインのテストに使用できる短いシーケンスはどこにありますか?