問題タブ [fasta]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
2887 参照

perl - Perlで2つのFASTAファイル(1つのファイルに改行が含まれている)をマージするにはどうすればよいですか?

次の2つのFastaファイルがあります。

file1.fasta

file2.qual

各fastaヘッダーの「qual」ファイルの改行に注意してください-「>」でマークされています。ファイルヘッダーの数('>')は、両方のファイルで同じです。数値品質の数=シーケンスの長さ。

私がやりたいのは、この2つのファイルを追加して次のようにすることです。

しかし、どういうわけか、以下の私のコードはそれを正しく行うことができませんか?特に、「qual」ファイルの各エントリの2行目は出力されません。

それを行う正しい方法は何ですか?

0 投票する
13 に答える
22418 参照

shell - SED/AWK を使用して FASTQ を FASTA に変換する

次の形式 (FASTQ と呼ばれる) の 4 つのブロックで常に来るデータがあります。

それらをこの形式(FASTAと呼ばれる)に変換する簡単なsed / awk / bashの方法はありますか:

原則として、各ブロック 4 の最初の 2 行を抽出し@>.

0 投票する
4 に答える
3171 参照

python - Python: fasta 形式のシーケンスの先頭から文字を削除する

シーケンスの先頭に 17 bp のプライマーを含む fasta 形式のシーケンスがあります。また、プライマーにはミスマッチがある場合があります。したがって、fasta ヘッダーを除いて、シーケンスの最初の 17 文字を削除したいと考えています。

シーケンスは次のようになります。

Pythonでこれを行うにはどうすればよいですか?

ありがとう!ジョン

0 投票する
4 に答える
2467 参照

bioinformatics - multiFASTAファイル処理

multiFASTAファイルを処理して、配列の数、長さ、ヌクレオチド/アミノ酸の含有量などの情報を取得し、説明的なプロットを自動的に描画できるバイオインフォマティクスツールがあるかどうか知りたいと思いました。R BIoconductorソリューションまたはBioPerlモジュールでもかまいませんが、何も見つかりませんでした。

手伝って頂けますか?どうもありがとう :-)

0 投票する
3 に答える
4563 参照

c# - C#でFASTAファイルを読み取るための最良の方法

いくつかのタンパク質配列を含むFASTAファイルがあります。フォーマットは次のようなものです

このファイルを読み込んでシーケンスを個別に保存する良い方法はありますか?

ありがとう

0 投票する
2 に答える
2176 参照

perl - モチーフの FASTA ファイルを検索し、モチーフを含む各シーケンスのタイトル行を返す

以下は、コマンドラインで入力された FASTA ファイルを検索して、ユーザーが提供したモチーフを検索するためのコードです。それを実行して、ファイルにあることがわかっているモチーフを入力すると、「モチーフが見つかりません」と返されます。私は Perl の初心者にすぎません。タイトル行を返すどころか、見つかったモチーフを印刷する方法もわかりません。これを解決するための助けをいただければ幸いです。

ありがとう。

0 投票する
3 に答える
2440 参照

bioinformatics - GC含量によるビニングシーケンスの読み取り

マルチファスタヌクレオチド配列ファイルを「ビン」(別々のファイルに分割)したいと思います(たとえば、Roche-454の実行で約500,000回の読み取りが平均読み取り長250bp)。各読み取りのGC含量に基づいたビンが欲しいのですが。結果の出力は、8つのmulti-fastaファイルになります。

<20%のGC含量

21〜30%のGC含量

31〜40%のGC含量

41-50%のGC含量

51〜60%のGC含量

61〜70%のGC含量

71〜80%のGC含量

> 80%のGC含量

誰かがこれをすでに行っているスクリプトやプログラムを知っていますか?そうでない場合、誰かがGCコンテンツに基づいてmulti-fastaファイルをソートする方法を提案できますか(それを関連するビンに分割できます)?

0 投票する
4 に答える
7932 参照

python - Pythonでの大きなファイルの効率的なファイルバッファリングとスキャン方法

私が抱えている問題の説明は少し複雑であり、より完全な情報を提供する側で誤りを犯します。せっかちな人のために、これが私がそれを要約することができる最も簡単な方法です:

改行文字をスローしながら、テキストファイルをサイズN(バインドされたN、たとえば36)のすべての(重複する)サブ文字列に分割する最も速い(実行時間が最も短い)方法は何ですか。

FASTAASCIIベースのゲノム形式でファイルを解析するモジュールを書いています。これらのファイルは、「hg18」ヒトリファレンスゲノムと呼ばれるもので構成されており、必要に応じて、UCSCゲノムブラウザーからダウンロードできます(スラッグになります!)。

お気づきのように、ゲノムファイルはchr[1..22].faとchr[XY].fa、およびこのモジュールで使用されていない他の小さなファイルのセットで構成されています。

BioPythonのSeqIOなど、FASTAファイルを解析するためのモジュールがすでにいくつか存在します。(申し訳ありませんが、リンクを投稿しますが、まだポイントがありません。)残念ながら、私が見つけたすべてのモジュールは、私が行おうとしている特定の操作を実行しません。

私のモジュールは、ゲノムデータ(たとえば、「CAGTACGTCAGACTATACGGAGCTA」は1行である可能性があります)を、重複するすべてのN長のサブストリングに分割する必要があります。非常に小さなファイル(実際の染色体ファイルの長さは3億5500万から2000万文字)とN=8を使用した例を挙げましょう。

私が見つけた関数は、私が考えることができる方法の中で絶対的に最高のパフォーマンスを持っていました:これは次のとおりです。

これは機能しますが、残念ながら、この方法でヒトゲノムを解析するのに約1.5時間かかります(以下の注を参照)。おそらくこれは私がこの方法で見るのに最適です(完全なコードリファクタリングが必要かもしれませんが、このアプローチにはコードの他の領域でいくつかの非常に特定の利点があるため、避けたいと思います)が、私は私はこれをコミュニティに引き渡すと思いました。

ありがとう!

  • この時間には、反対側のストランドの読み取りの計算や、サイズが約5Gのハッシュでのハッシュテーブルルックアップの実行など、多くの追加の計算が含まれることに注意してください。

回答後の結論: fileobj.read()を使用してから、結果の文字列(string.replace()など)を操作すると、プログラムの残りの部分と比較して時間とメモリが比較的少なくて済むことがわかったので、それを使用しましたアプローチ。みんな、ありがとう!

0 投票する
2 に答える
2361 参照

python - GenBankフラットファイルをFASTAに変換する

予備のGenBankフラットファイルを解析する必要があります。シーケンスはまだ公開されていないので、アクセッションで調べてFASTAファイルをダウンロードすることはできません。私はバイオインフォマティクスに不慣れなので、誰かがこれを自分で行うためのBioPerlまたはBioPythonスクリプトを見つけることができる場所を教えてもらえますか?ありがとう!

0 投票する
3 に答える
498 参照

python - BLAST出力からギャップのないシーケンスを取得するには?

FASTA 形式の BLAST 出力からギャップのないシーケンスを取得することに興味があります。使えると思っhsps_no_gapたけどダメ。これを行うために使用できる方法はありますか?