問題タブ [genbank]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python (x, y) での利回りを使用した GenBank から FASTA への解析
今のところ、それを行うために独自の関数を定義して文書化しようとしましたが、コードのテストで問題が発生しており、それが正しいかどうかは実際にはわかりません. BioPython、re、またはその他でいくつかの解決策を見つけましたが、これを歩留まりで機能させたいと本当に思っています。
python - GenBankアクセッションコードをbiopythonに指定して学名を取得するにはどうすればよいですか?
GenBank コード アクセッションと biopython のみを使用して、GenBank のデータから学名 (またはすべての機能) を取得する方法を誰かが知っています。例えば:
またはまあ:
ありがとうございます !=)
performance - ゲンバンク機能追加の改善
biopython を使用して genbank ファイルに 70000 以上の新機能を追加しようとしています。
私はこのコードを持っています:
結果は、元の gbk ファイルに追加する必要がある各機能の開始点と終了点を含むリストの単なるリストです。
このソリューションは私のコンピューターにとって非常にコストがかかり、パフォーマンスを改善する方法がわかりません。何か良いアイデアはありますか?
python - biopython で genbank ファイルをダウンロード中に socket.gaierror が発生する
Biopython とアクセッション番号のリストを使用して、NCBI から genbank ファイルをダウンロードしたいと思います (引数として電子メール アドレスを使用してスクリプトを呼び出すことに注意してください。たとえば、python scriptName.py emailAddress)。
スクリプトを実行すると、エラーが発生する前に、最初のファイル (のみ) の部分的なダウンロードが行われます。
コードにエラーがあるかどうか、選択したモジュールに問題があるかどうか (Biopython が呼び出しを処理する必要がありますが)、接続に問題があるかどうか (警告なしにジョブがブロックされてスロットルされるかどうか) をまだ判断していません。 )、またはそれ以外の場合。
urllib*/http* モジュールを使用して、または使用せずに実行しようとしましたが、役に立ちませんでした (同じエラーが発生します)。ただし、部分ファイルは興味深いものです。最終シーケンスまでのすべてがダウンロードされます (最後にコンティグ エントリがあります)。ダウンロードしたファイルの最後の行は次のとおりです。
これは元の genbank ファイルと比較できます: http://www.ncbi.nlm.nih.gov/nuccore/10955266/?report=genbank
DTD ファイルに関連するエラーではないことは確認できましたが、それ以外は問題ありません。( NCBI からの新しい RefSeq リリースは Bio.Entrez.Parser と互換性がありますか? )
このスクリプトを CentOS Python 3.4.3 で実行しています :: Anaconda 2.3.0 (64-bit) :: Biopython 1.66
python - Python: 繰り返しセットの数値を取得するための正規表現
Genbank エントリであるファイルを操作しています (これに似ています)
私の目標は、CDS 行の数字を抽出することです。
しかし、私の正規表現は、次のように複数の行から数値を抽出することもできるはずです:
私はこの正規表現を使用しています:
これにより、正しい数字だけでなく、ファイルの残りの部分からの数字も得られます。
正規表現を変更して数値を取得するにはどうすればよいですか?正規表現のみを使用する必要があります..
数値を使用して、塩基配列のコーディング部分を出力します。