問題タブ [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - fasta ファイルでシーケンスを分割する
fasta ファイル形式を使用しており、idなしでシーケンスのみを抽出し、シーケンスを分割したい場合は、このコードを記述します
このステップでは、シーケンスを含むテキスト ファイルを作成します。次のようになります。
次に、「CGT」のような 3 つの塩基を含むサブシーケンスを取得するために、各シーケンスを分割したいので、次のコードを入力します。
これは与える:
私にとっては、シーケンスをグループに分割したいです。各グループには 3 つのシーケンスが含まれ、その長さは 9 (9 塩基) です。次に、各シーケンスを 3 塩基のサブシーケンスに分割するため、各シーケンスの長さを知る必要があります。
例えば
次に、このサブシーケンスにいくつかの操作を適用し、シーケンスのすべての長さに対して同じ手順を実行します。
これを行うのを手伝ってくれる人がいて、コードを修正できますか
python - fasta ファイルの分割方法
このコードは、fasta ファイルからシーケンスを抽出および分割するためのものです。
次に、分割されたシーケンスから、その長さが 9 (9 塩基) の 3 つのシーケンスを取得したい例:
最初のシーケンスを 3 塩基の 3 つのサブシーケンスに分割します。したがって、1 つのシーケンスから 3 つのサブシーケンスを取得し、他の 2 つのシーケンスについても同じことを行います。
このような:
例:
この関数を 3 つのシーケンスの各サブシーケンスに適用し、すべての fasta ファイルに同じことを適用したいと考えています。したがって、目的は行列を取得することです。たとえば、最初のサブシーケンス 'CGT' を取得し、関数identical_segment() を適用すると、28 が返されます。残りの 8 つのサブシーケンスについても同じです。したがって、行列(3,3)を取得します。
私に何ができる?
python - Biopython Entrez を使用して fasta レコードからシーケンス要素にアクセスする
BioPython Entrez を使用してシーケンス レコードをプルダウンするために使用している refseq ID (keys_list) のリストがあります。返された fasta レコードのシーケンスだけにアクセスしたいのですが、そのためにレコードをファイルに書き込む必要はありません。
私は次のコードを試しています
これを実行すると、次のエラーが表示されます。
でレコード全体を返すとhandle.read()
、fasta レコード全体を取得できますが、この段階では塩基配列のみにアクセスしたいだけです。
誰でもこの問題を解決できますか?
よろしくお願いします。
r - 「for ループ」にテーブルを書き込む (R)
テキスト ファイルに多くのシーケンスがあります。「read.fasta」関数を使用してこれらのシーケンスをインポートします。「for ループ」を使用して各シーケンスのヌクレオチド頻度のテーブルを作成し、「write.table」を使用して出力を取得します。ただし、シーケンスごとにファイルを作成します(多くの出力ファイルと各ファイルにはシーケンスのテーブルがあります)。すべてのテーブルを含むファイルを作成するコマンドを検索します。
注: "mydata.txt" は fasta 形式の多くの配列を含むファイルです
python - FASTA ファイルからの配列だけを解析できません
'>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA\n'
シーケンスからid like を削除するにはどうすればよい ですか?
私はこのコードを持っています:
出力:
私の機能は次のとおりです。
fct()
文字列から整数を返します。たとえば
、次のようになりACT
ます8
しかし、関数を使用すると、次のようになります。
行頭を削除して残りをテキストファイルに書き込むことでIDを削除しようとしまし>
た。そのため、テキストファイルoutput.txt
にはIDのないシーケンスのみが含まれていますが、関数fct を使用すると同じエラーが見つかりました:
私に何ができる?
python - タブで区切られていないファイルでシーケンスを検索
今日、私は再び問題に遭遇しました。
次のようなファイルがあります。
ファイル A
など (基本的には FASTA ファイル)。
他のファイルには、私の読み取りに関する情報がタブで区切られています。
ファイル B
どちらのファイルも本当に巨大です
必要なすべてのことを書きたいのですが、問題がある部分だけを書きます。
ファイル B からファイルされた chr2 がファイル A の行 >chr2 と一致する場合、ファイル A のシーケンスで CACTTTTTGTCTA (ファイル B) を探します (>chr2 領域のシーケンスのみ。次の >chr は別の染色体なので、そこを検索したくありません) )。
これを簡単にするために、ファイル A の CACACGTGCTAG シーケンスを探してみましょう。
ファイルAに辞書を使用しようとしていましたが、まったく実行できません。
助言がありますか?
ruby - FASTA 形式ファイルの配列を長さで並べ替えますか?
FASTA シーケンスを長さの順序 (短い順) に並べ替えるには、どのようなアルゴリズムを使用する必要がありますか? シーケンスを長さ順にソートする必要がありますが、長さだけでなくすべての情報が表示されます。
を使用してシーケンスの「長さ」をソートし、Bio::FastaFormat#length
長さを配列に入れてからソートできます。
これはシーケンスの長さを順番に表示しますが、私が確認できるようにする必要があるのは、元の FASTA 形式の長さ順です。
seq.length
(各シーケンスの長さ)をseq.entry
(fastaフォーマット全体)に追加してからソートすることはできません。これseq.length
は、整数でありseq.entry
、文字列を与えるためです。を変換しseq.length.to_s
て、これを に追加してseq.entry
、ソートしてみました。これは私が持っている最も近いものですが、残念ながら長さは文字列になっているため、1,11,111
代わりに1,2,3
順序付けられます。
sequence_id
これを行った後、エントリ全体の代わりに を使用して、長さを文字列に変換せずに上記を試しましたが、id
文字が含まれているため、エラーメッセージを表示せずに長さの整数を追加することはできません。
ええ、何か提案はありますか?
perl - ファイルから各行の特定の文字数を数える方法は?
FASTA ファイル内の「N」の数を数えようとしています。これは次のとおりです。
最後に、「N」の数のカウントを取得したいのですが、各ヘッダーは読み取りであるため、ヒストグラムを作成したいので、最終的に次のような出力を行います。
等...
したがって、「N」の数が 0 のシーケンスまたはリードが 300 あります。