問題タブ [biopython]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PDBファイルからチェーンを抽出するには?
pdb ファイルからチェーンを抽出したいと思います。以下に示すように、pdb ID を含む pdb.txt という名前のファイルがあります。最初の 4 文字は PDB ID を表し、最後の文字はチェーン ID です。
1) ファイルを 1 行ずつ読み取り、2) 対応する PDB ファイルから各チェーンの原子座標をダウンロードします。
3) 出力をフォルダーに保存します。
次のスクリプトを使用してチェーンを抽出しました。しかし、このコードは pdb ファイルから A チェーンのみを出力します。
python - 「Biopython」の使用 - コードを改善するにはどうすればよいですか
次のコードがあります。
ご覧のとおり、現在 2 つのファイルを書き込んでいます。本当に必要なのは2番目のファイルだけです。両方の「添え字」を 1 つに結合するための提案はありますか?
入力ファイル「HPV16_CG.aln.fas」は次のようになります。
これを改善するためのすべてのヘルプ/提案に本当に感謝しています!
python - PDBParser がすべての fpocket 出力ファイルを読み取れないのはなぜですか?
fpocket を使用して、PDB タンパク質構造のポケットを見つけています。出力は、ポケットpocket0_atm.pdb
、pocket1_atm.pdb
などの順序付けられたリストです。一部のファイルは問題なく読み込まれますBio.PDB.PDBParser
。その他は「AssertionError」で失敗します。
動作する .pdb ファイルと動作しないファイルを比較しようとしても、一貫した違いは見られませんでした。何か案は?
問題を引き起こしているコードの関連セクションは次のとおりです。
python - FASTAファイルからのジアミノ酸周波数(Bigram周波数)のカウント
大量のFASTAファイル(分泌ペプチドのさまざまな生物のペプチドーム)がある場合、Python(またはMatlab)を使用して(UNIProtから)FASTAファイルを読み取り、各アミノ酸とアミノ酸の頻度をカウントするにはどうすればよいですか? 「ダブル」ペアリング?
(IE-出力には、個々のアミノ酸の%(22文字/文字のうち)とアミノ酸のペアの頻度が含まれている必要があります。
事実上、文字ペアのバイグラム(または実装が簡単な場合はnグラム)の頻度をカウントしたいと思います。
22個のアミノ酸はそれぞれFASTAファイルで一意の文字で表され、各タンパク質の名前の前には>が付いています。(すでに解析されているため、関連する文字のみが残ります)
ファイルのサンプル:
FFKA
FLRN
MTTVSYVTILLTVLVQVLTSDAKATNNKRELSSGLKERSLSDDAPQFWKGRFSRSEEDPQ FWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQ FWKGRFSDGTKRENDPQYWKGRFSRSFEDQPDSEAQFWKGRFARTSSGEKREPQYWKGRF SRDSVPGRYGRELQGRFGRELQGRFGREAQGRFGRELQGRFGREFQGRFGREDQGRFGRE DQGRFGREDQGRFGREDQGRFGREDQGRFGREDQGRFGRELQGRFGREFQGRFGREDQGR FGREDQGRFGRELQGRFGREDQGRFGREDQGRFGREDLAKEDQGRFGREDLAKEDQGRFG REDIAEADQGRFGRNAAAAAAAAAAAKKRTIDVIDIESDPKPQTRFRDGKDMQEKRKVEK KDKIEKSDDALAKTS
どうもありがとうございます!
macos - ImportError: BIO という名前のモジュールがありません
私はプログラミングに非常に慣れていないので、Pythonもそうです。その後、解決方法がわからない問題があります。
私は、BioPython で動作するように設計されたスクリプトを使用して、Mac OS で作業しています。多くの作業の後、NumPY のインストールを何度も試みた後、最終的に BioPython を正しくインストールしたと思いますが、スクリプトを実行しようとすると、次のエラーが発生します。
私のスクリプトは次のように始まります:
私も最初に挿入しようとしました:
スクリプトを他のディレクトリから読み取るようにしますが、次のようにします。
最後に、Python パスから Bio モジュールをインポートしようとしましたが、問題なく実行できるので、モジュールは正しくインストールされると思います。
私に何ができる?
どうもありがとう
python - blastx 出力ファイルから特定のエントリを抽出し、新しいファイルに書き込みます
XML 形式の Blastx 出力ファイル内で (ユーザーが指定した) キーワードを正常に検索するスクリプトを作成しました。ここで、アライメント タイトルにキーワードを含むレコード (クエリ、ヒット、スコア、evalue など) を新しいファイルに書き込む必要があります。
クエリ タイトル、ヒット タイトル、e 値、アライメントの長さごとに個別のリストを作成しましたが、それらを新しいファイルに書き込めないようです。
問題 #1: Python エラーが発生し、リストの 1 つに値が欠落している場合はどうなりますか? 次に、他のすべてのリストは、クエリに関して間違った情報を提供します (「ライン スリッページ」、場合によっては...)。
問題 #2: Python でエラーが発生せず、すべてのリストが同じ長さである場合でも、各リストの最初の項目が互いに関連付けられるように、それらをファイルに書き込むにはどうすればよいですか (したがって、からの項目 #10)各リストも関連付けられていますか?) 代わりに辞書を作成する必要がありますか?
問題 3: 辞書にはキーの値が 1 つしかありません。クエリに複数の異なるヒットがある場合はどうなりますか? 上書きされるかスキップされるか、または単にエラーになるかどうかはわかりません。助言がありますか?私の現在のスクリプト:
/li>
python - 標準出力を使用して Python/Biopython/Clustalw を使用し、タンパク質のディレクトリを反復処理するバイオインフォマティクス スクリプト
だから私は、タンパク質配列を整列させるためにBiopythonとClustalw2を利用して、Pythonで少しバイオインフォマティクスの仕事をしています。私はこれにかなり慣れていません (経験は数か月しかありません) が、stdout を使用してディレクトリ全体を反復処理する際に問題が発生しています。どんな助けでも大歓迎です。
だから私はこれを書きました.これは一度に1つのファイルを処理し、望ましい結果を生成します...
...そして、これはうまくいくようです。問題は、ディレクトリ全体でこれを反復しようとしたときに発生します (整列が必要なタンパク質配列の 1000 以上のファイルなど)。問題が stdout にあることはわかっていますが、この時点で少し素人すぎて、修正方法を知ることができません。 . 以下は壊れたコードです —</p>
ご覧のとおり、私はこれをかなりひどくいじっています。ご協力いただきありがとうございます。
python - Biopython SeqUtils six_frame_translations の呼び出しに関する問題
次のコードを実行すると:
次のエラーが表示されます。
私はPython 3.23、Biopython 1.59を使用しています
助言がありますか?ありがとう、
チャールズ
python - biopython - Entrez.esearch() クエリの翻訳がクエリに対応していません
私はBiopythonが初めてです。このコードの使用:
私は得る:
しかし、私はこのようなsthを期待しています:
( http://www.ncbi.nlm.nih.gov/nuccoreの検索結果からの QueryTranslation )
refseq フィルターも機能していないようです。私は何を間違っていますか?前もって感謝します!
string - Python文字列で重複するkmerを見つける
長いバイナリ文字列でバイナリ5マーの数を見つけようとしています。つまり、次のような文字列が与えられた場合:seq = '000111100101101'、各5マーが出現する回数をカウントしたいと思います。32回の反復すべてのリストを簡単に生成しました。
私の問題は、重複する各組み合わせの発生をカウントすることです。(つまり、長さ5:0:4、1:5、2:6、3:7の重複するウィンドウをチェックインしたい...(シーケンスの長さの合計-4つのウィンドウ)。方法がわかりません。したがって、重複するウィンドウをカウントする方法で(combo [i] = seq.count(i)は機能しないようです)。
ありがとう!
与えられたシーケンスに必要な出力の例: