問題タブ [fasta]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1068 参照

python - fasta ファイルでシーケンスを分割する

fasta ファイル形式を使用しており、idなしでシーケンスのみを抽出し、シーケンスを分割したい場合は、このコードを記述します

このステップでは、シーケンスを含むテキスト ファイルを作成します。次のようになります。

次に、「CGT」のような 3 つの塩基を含むサブシーケンスを取得するために、各シーケンスを分割したいので、次のコードを入力します。

これは与える:

私にとっては、シーケンスをグループに分割したいです。各グループには 3 つのシーケンスが含まれ、その長さは 9 (9 塩基) です。次に、各シーケンスを 3 塩基のサブシーケンスに分割するため、各シーケンスの長さを知る必要があります。

例えば

次に、このサブシーケンスにいくつかの操作を適用し、シーケンスのすべての長さに対して同じ手順を実行します。

これを行うのを手伝ってくれる人がいて、コードを修正できますか

0 投票する
2 に答える
1302 参照

python - fasta ファイルの分割方法

このコードは、fasta ファイルからシーケンスを抽出および分割するためのものです。

次に、分割されたシーケンスから、その長さが 9 (9 塩基) の 3 つのシーケンスを取得したい例:

最初のシーケンスを 3 塩基の 3 つのサブシーケンスに分割します。したがって、1 つのシーケンスから 3 つのサブシーケンスを取得し、他の 2 つのシーケンスについても同じことを行います。

このような:

例:

この関数を 3 つのシーケンスの各サブシーケンスに適用し、すべての fasta ファイルに同じことを適用したいと考えています。したがって、目的は行列を取得することです。たとえば、最初のサブシーケンス 'CGT' を取得し、関数identical_segment() を適用すると、28 が返されます。残りの 8 つのサブシーケンスについても同じです。したがって、行列(3,3)を取得します。

私に何ができる?

0 投票する
2 に答える
1021 参照

python - Biopython Entrez を使用して fasta レコードからシーケンス要素にアクセスする

BioPython Entrez を使用してシーケンス レコードをプルダウンするために使用している refseq ID (keys_list) のリストがあります。返された fasta レコードのシーケンスだけにアクセスしたいのですが、そのためにレコードをファイルに書き込む必要はありません。

私は次のコードを試しています

これを実行すると、次のエラーが表示されます。

でレコード全体を返すとhandle.read()、fasta レコード全体を取得できますが、この段階では塩基配列のみにアクセスしたいだけです。

誰でもこの問題を解決できますか?

よろしくお願いします。

0 投票する
1 に答える
3130 参照

r - 「for ループ」にテーブルを書き込む (R)

テキスト ファイルに多くのシーケンスがあります。「read.fasta」関数を使用してこれらのシーケンスをインポートします。「for ループ」を使用して各シーケンスのヌクレオチド頻度のテーブルを作成し、「write.table」を使用して出力を取得します。ただし、シーケンスごとにファイルを作成します(多くの出力ファイルと各ファイルにはシーケンスのテーブルがあります)。すべてのテーブルを含むファイルを作成するコマンドを検索します。
注: "mydata.txt" は fasta 形式の多くの配列を含むファイルです

0 投票する
1 に答える
796 参照

python - FASTA ファイルからの配列だけを解析できません

'>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA\n'シーケンスからid like を削除するにはどうすればよい ですか?

私はこのコードを持っています:

出力:

私の機能は次のとおりです。

fct()文字列から整数を返します。たとえば 、次のようになりACTます8

しかし、関数を使用すると、次のようになります。

行頭を削除して残りをテキストファイルに書き込むことでIDを削除しようとしまし> た。そのため、テキストファイルoutput.txtにはIDのないシーケンスのみが含まれていますが、関数fct を使用すると同じエラーが見つかりました:

私に何ができる?

0 投票する
2 に答える
107 参照

python - タブで区切られていないファイルでシーケンスを検索

今日、私は再び問題に遭遇しました。

次のようなファイルがあります。

ファイル A

など (基本的には FASTA ファイル)。

他のファイルには、私の読み取りに関する情報がタブで区切られています。

ファイル B

どちらのファイルも本当に巨大です

必要なすべてのことを書きたいのですが、問題がある部分だけを書きます。

ファイル B からファイルされた chr2 がファイル A の行 >chr2 と一致する場合、ファイル A のシーケンスで CACTTTTTGTCTA (ファイル B) を探します (>chr2 領域のシーケンスのみ。次の >chr は別の染色体なので、そこを検索したくありません) )。

これを簡単にするために、ファイル A の CACACGTGCTAG シーケンスを探してみましょう。

ファイルAに辞書を使用しようとしていましたが、まったく実行できません。

助言がありますか?

0 投票する
1 に答える
640 参照

ruby - FASTA 形式ファイルの配列を長さで並べ替えますか?

FASTA シーケンスを長さの順序 (短い順) に並べ替えるには、どのようなアルゴリズムを使用する必要がありますか? シーケンスを長さ順にソートする必要がありますが、長さだけでなくすべての情報が表示されます。

を使用してシーケンスの「長さ」をソートし、Bio::FastaFormat#length長さを配列に入れてからソートできます。

これはシーケンスの長さを順番に表示しますが、私が確認できるようにする必要があるのは、元の FASTA 形式の長さ順です。

seq.length(各シーケンスの長さ)をseq.entry(fastaフォーマット全体)に追加してからソートすることはできません。これseq.lengthは、整数でありseq.entry、文字列を与えるためです。を変換しseq.length.to_sて、これを に追加してseq.entry、ソートしてみました。これは私が持っている最も近いものですが、残念ながら長さは文字列になっているため、1,11,111代わりに1,2,3順序付けられます。

sequence_idこれを行った後、エントリ全体の代わりに を使用して、長さを文字列に変換せずに上記を試しましたが、id文字が含まれているため、エラーメッセージを表示せずに長さの整数を追加することはできません。

ええ、何か提案はありますか?

0 投票する
1 に答える
1455 参照

perl - ファイルから各行の特定の文字数を数える方法は?

FASTA ファイル内の「N」の数を数えようとしています。これは次のとおりです。

最後に、「N」の数のカウントを取得したいのですが、各ヘッダーは読み取りであるため、ヒストグラムを作成したいので、最終的に次のような出力を行います。

等...

したがって、「N」の数が 0 のシーケンスまたはリードが 300 あります。