問題タブ [biopython]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Biopython は Python 3.2 をサポートしていますか?
Biopython の Web サイトには、バージョン 2.7 までの Python が必要であると記載されていますが、Python 3+ のサポートが存在するかどうかは明示されていません。
Python 3.2 で Biopython を使用する方法はありますか?
参照: http://biopython.org/DIST/docs/install/Installation.html#sec7
bioinformatics - MultipleSeqAlignment オブジェクトの印刷
によって生成された3つのシーケンスのアラインメントがありますclustalx
Biopython で定義済みのインデックス付けを使用してアライメントをスライスできますalign[:,:4]
ただし、結果を印刷すると、次のようになります。
以下に示すように、名前を出力せずにサブアラインメントをキャプチャするにはどうすればよいですか?
align[:,:4].seq
探している出力が得られません。
python - Biopython ローカル BLAST データベース エラー
Biopython の NcbiblastxCommandline ツールを使用して「nr」データベースで blastx をローカルで実行しようとしていますが、タンパク質データベースの検索パスに関して常に次のエラーが発生します。
ダウンロードした nr データベースを指すようにパスを変更する方法がわかりませんが、このコードをコマンドラインから問題なく実行できるため、パスを正しく指していると思いました。
上記のコマンド ライン コードは、予想どおり、ブラスト結果の xml ファイルを作成します。
Biopython NCBI コマンド ライン ツールを使用してこの問題を解決するための助けをいただければ幸いです。
biopython - Bio.PDB からのインポート時の ImportError
Biopython の PDBParser を使用して PDB ファイルをダウンロードしたいのですが、インポートしようとすると次のエラーが表示されます。
トレースバック (最新の呼び出しが最後): File "C:\Python27\TAREA 3 FINAL.PY", line 33, in [HTML] from Bio.PDB import * File "C:\Python27\lib\site-packages\Bio\ PDB_init_.py"、15 行目、[HTML] from PDBParser import PDBParser File "C:\Python27\lib\site-packages\Bio\PDB\PDBParser.py"、13 行目、[HTML] import numpy ImportError: No numpy という名前のモジュール
何が起きてる?
python-2.7 - Biopython のインストールにヘルプが必要
Mac OS 10.6 があり、python バージョン 2.7 32 ビットがインストールされており、numpy と scipy も含まれています。xcodeバージョン3.2もあります。この時点で何をすべきか本当に混乱しています。biopython バージョン 1.59 をダウンロードし、セットアップ コードを python で実行しようとしましたが、動作しません。私は何が欠けていますか?
セットアップ ファイルをアイドル状態で実行しようとすると、次のエラー メッセージが表示されます。
python - Biopython の PDB モジュールに等価性を実装する
バックグラウンド
BiopythonのPDB
モジュールでは、PDB 構造がオブジェクトに解析されStructure
、SMCRA アーキテクチャ (Structure/Model/Chain/Residue/Atom) に構造のコンポーネントが格納されます。Entity
この階層の各レベルは、コンテナ クラスを継承するオブジェクトによって表されます。
等価
私の問題は、2 つの Entity オブジェクトが等しくなることは決してないということです。
同じファイルから構築された構造は等しくありません。
その構造内の残基は等しくありません:
等々。
同じ PDB ファイルを個別に解析した場合Entity
、構造内のどのオブジェクトも等しいとは言えません。
解決
この問題の明らかな解決策は、同じ PDB ファイルを 2 回解析しないことです。次に、オブジェクトの同一性、つまり等価性があります。ただし、この答えは私には不完全に思えます。
各Entity
オブジェクトは、 を使用して識別タプルを返すことができますget_full_id()
。このメソッドは、最上位のオブジェクトから順にすべての ID を提供します。Entity
オブジェクトの構築時に適切な PDB ID が指定されている場合は、構造内の各構造体で一意である必要があり、すべての構造体で一意である必要がありStructure
ます。
Entity
同等性をテストするための私の解決策は、単にこの完全な ID を比較することです。あれは:
質問
Entity
この時点で、同等性の実装が適切かどうかを尋ねています。
- 誤検知 (たとえば、同じ PDB ID が提供された異なる構造) は心配ですか?
- 同等性をテストする必要があるときはいつでも、完全な ID を手動で比較する方がよいでしょうか?
- また、モジュール
__eq__
内で実装されていない理由はありますか?PDB
python - 大きなfastaを複数のファイルに分割し、GI番号で名前を付けることはできません
私は、Python と Biopython の両方に慣れていないということから始めなければなりません。大きな .fasta ファイル (複数のエントリを持つ) を、それぞれに 1 つのエントリを持つ単一のファイルに分割しようとしています。Biopython wiki/Cookbook サイトで次のコードのほとんどを見つけ、少しだけ変更しました。私の問題は、このジェネレーターがそれらに「1.fasta」、「2.fasta」などの名前を付けていることです。GI番号などの識別子で名前を付ける必要があります。
交換しようとすると:
と:
SeqIO の seq_record.id に似た名前になるようにすると、次のエラーが発生します。
ジェネレーター関数には属性「id」がありませんが、どうにか回避できますか? このスクリプトは、私がやろうとしていることに対して複雑すぎますか?!? ありがとう、チャールズ
python - (BioPython)MemoryError:Out of Memory例外を停止するにはどうすればよいですか?
非常に大きな複数のシーケンスファイルのペア(それぞれ平均約1000 bpの長さの>77,000シーケンス)を取得し、ペアになっている個々の要素間のアラインメントスコアを計算し、その番号を出力ファイルに書き込むプログラムがあります(これをロードします)。後でExcelファイル)。
私のコードは小さな複数のシーケンスファイルで機能しますが、大きなマスターファイルは16番目のペアを分析した後に次のトレースバックをスローします。
私はこれを回避するために多くのことを試みましたが(多くの人がコードからわかるように)、まったく役に立ちませんでした。大きなマスターファイルを小さなバッチに分割して、スコア計算方法にフィードしてみました。使い終わった後、delファイルを試しました。Oracle仮想マシンでUbuntu 11.11を使ってみました(通常、64ビットのWindows 7で動作します)。私は野心的であり、これはBioPythonで計算上実行可能ですか?以下は私のコードです。この問題の明らかな原因であるメモリデバッグの経験はありません。私はこの問題に非常に不満を感じています。
最高、ハリー
PS親切にしてください私はこの問題を回避するためにそこに置いたコードにおそらくいくつかの間抜けなものがあることを知っています。
biopython - Entrez.efetch(db="Taxonomy", id=tax_id, retmode="xml") returns empty records
The following code returns an empty record:
parsing - Excel の ID リストを使用して、NCBI から配列を fasta 形式で保存します。
私はPythonを使用するのはかなり初めてで、大好きです。しかし、私はこの問題で立ち往生しており、私が見逃しているものについて教えていただければ幸いです.
Excel ファイルに遺伝子 ID のリストがあり、xrld と biopython を使用してシーケンスを取得し、(fasta 形式で) 結果をテキスト ドキュメントに保存しようとしています。これまでのところ、私のコードではシェルで結果を確認できますが、ドキュメントの最後のシーケンスしか保存されません。
これは私のコードです:
前述したように、ファイル「example.txt」には、シェルを示す最後のシーケンス (fasta 形式) しかありません。
同じドキュメントで NCBI から取得したすべてのシーケンスを取得する方法を教えてください。
どうもありがとうございました
アントニオ