問題タブ [genbank]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bash - awk ダブルスラッシュ レコード区切り
文字列「//」に基づいてファイルのレコードを分離しようとしています。
私が試したことは次のとおりです。
「********」などは、レコードが分割されていることを示す単なるトレースです。
ただし、ファイルには/
(それ自体で)含まれており、私のトレース ******
もそこに出力されており、awkがそれらをレコードセパレーターとしても解釈していることを意味します。
//
????でのみレコードを分割するように awk を取得するにはどうすればよいですか?
更新: Unix (OS X に付属するもの) で実行しています
私は一時的な解決策を見つけました:
しかし、特に私が扱っている大規模なファイルでは、より良い方法があるはずです。
python - biopython を使用して、genbank ファイルのシーケンスを新しい genbank ファイルに編集して保存するにはどうすればよいですか?
間違った .gbk ファイルがあり、次の形式の修正リストがあります。
「ヌクレオチドのアドレス: 正しいヌクレオチド」
正確な元のシーケンスを開いて解析する方法を知っています
それを独自のヌクレオチド修正に置き換える方法を知る必要があるだけです. 私はもう試した
dna_refseq は、ゲノム全体を構成する単なるリストでした
私は文字通り、この特定のアクションをドキュメントやオンラインのどこにも見つけることができません。直感的に、これは biopython ができるはずのことです。
python - Entrez と SeqIO "ハンドルにレコードが見つかりません"
私のコードは次のようになります。
最後から 2 番目の行で、次のエラーが表示されます。
私のファイルは問題ないようです - 空でも何でもありません。たくさんのレコードがあり、私が知る限り、それは正しい形式です。私は正確に何を間違っていますか?
これが他のデータベース、たとえば「ヌクレオチド」で機能することに気付きました。それはPubmedの問題ですか?それには別のフォーマットが必要ですか?ありがとう。
python - biopython で genbank ファイルの一部のみをダウンロードする
私は Biopython を初めて使用し、genbank ファイルを解析するときにパフォーマンスの問題があります。
多くの gb ファイルを解析する必要があり、そこからアクセッション番号を取得しています。解析後は、ファイルの分類とオルガネラのみを調べたいと思います。今、私はこのコードを持っています:
私が持っている分類法を探すために:
これ (スクリプト全体) は正常に動作します。私の問題は、オルガネラと分類学の 2 つの機能を調べるためだけに、gb ファイル全体 (場合によっては巨大になることもあります) をダウンロードしていることです。gb ファイルのこの部分だけをダウンロードできれば、スクリプトははるかに高速になりますが、これが可能かどうかはわかりません。
これができるかどうか誰かが知っていますか?もしそうなら、どうやって? 事前にどうもありがとう
python - Pythonのfastaヘッダーの対応するGI番号からNCBIからアクセッション番号を取得します
Genbank で GI 番号を段階的に廃止し、次の形式でヘッダーを編集した場所にいくつかの fasta ファイルが保存されているという警告が表示され続けます。
どこから始めればよいかわかりませんが、理想的にはPythonを使用して、NCBIから各giに対応するアクセッション番号を取得し、次のようにヘッダー付きのファイルを出力できる方法はありますか?
ファイル形式の別の例を次に示します。
編集/更新: