問題タブ [protein-database]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - タンパク質データベースから類似性の高いタンパク質を抽出
PDBデータベースから非常に類似した構造を取得するにはどうすればよいですか?
98% 以上のシーケンス類似構造としましょうか?
python - Ncbi タンパク質データベース、特定のバイオプロジェクトからタンパク質配列を取得する方法 (python スクリプト)
特定のバイオプロジェクトの NCBI データベースからコーディングタンパク質配列を取得しようとしています。これは、Web ブラウザーを使用して何らかの形で実現できます。たとえば、興味のある特定のバイオプロジェクトを見つけて、関連するタンパク質を「クリック」することができます: http://www.ncbi.nlm.nih.gov/genome/proteins/994?project_id=207383すべてを見ることができますBioProject "207383" および Genome "994" のタンパク質。Pythonを使用してそれらのタンパク質配列を自動的に取得したいと思います。
そのために、NCBI の「E-utilities」を使用しました。主に「elink.fcgi?」これにより、データベースの特定のUID(BioProject UIDとしましょう)からリンクされたデータベースのすべてのUID(「タンパク質」としましょう)を取得できます。ここに私の entrez URL リクエストがあります:
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=bioproject&linkname=bioproject_protein&id=207383
次に、タンパク質 UID のリストを取得します。 efetch.fcgi を使用した次のリクエストのために、これらが必要ですか? 「Eユーティリティ」。このリクエストにより、必要なものすべてを取得できます。
OK、すべてが素晴らしいので、すべて正常に動作しますが、「elink.fcgi?」から取得したタンパク質 UID の数は? 要求は、手動の Web ブラウザー ベースの検索で表示されるタンパク質の数と同じではありません。さらに悪いことに、これらの問題の原因を調べると、欠落している配列や高等分類群の配列が表示されます (これも BioProject とはまったく関係がありません)。
例を次に示します。この投稿の最初のリンクは、Python リクエストが 3957 タンパク質 UID を取得したときに、多くの 4014 シーケンスを表示します。
タクソノミー UID からリンクされたすべてのタンパク質 UID を取得するなど、他のアプローチをいくつか試しました。さまざまなバイオプロジェクトがあるため、これは通常、必要以上のシーケンスを提供します (また、異なる名前で同じ Fasta のダブルもいくつか提供します)。
これを行う方法はありますか?
python - BioPython で Entrez を使用して GenBank からタンパク質配列を取得して解析する
すぐに明らかになるように、私は Python とコーディング全般に不慣れです。テキスト ファイルとして保存されている遺伝子 ID のリストがあり、Entrez 関数を使用して GenBank データベースを検索し、ID に対応するタンパク質配列を取得したいと考えています。理想的には、この時点では配列のみに関心があるため、最終製品を FASTA ファイルにしたいと考えています。Biopython チュートリアル ( http://biopython.org/DIST/docs/tutorial/Tutorial.html#sec15 ) を使用して、私はこれを思いつきました:
しかし、実行すると、次のエラーが表示されます。
rettype = 'fasta' を使用するたびに同様のエラーが発生します。rettype = 'gb' を使用すると、このエラーは発生しませんが、実際には fasta ファイルで終了したいと考えています。誰か提案はありますか?ありがとうございました!
編集:申し訳ありませんが、入力ファイルがどのようなものかを含めることを怠りました。完璧な世界では、コードは次のような入力形式を受け入れます。
しかし、次のような遺伝子 ID (GI) のみの簡略化されたバージョンも使用してみました。
python - Pymolが画像を出力していません
pymol を使用して pdb ファイルからタンパク質構造を描画しようとしています。
ただし、以下のスクリプトを実行しようとすると、pymol ウィンドウが開きますが、真っ暗です。また、奇妙なことに、pdb ファイルがシェルに出力されます。
これが私のコードです:
ここで何が起こっているか知っている人はいますか?
.png ファイル 'my_pdb' が作業ディレクトリにダンプされますが、これも黒です。
python - 事前にファイルを開かずに Python 関数の書き込みを呼び出すにはどうすればよいですか?
私は python2.7 を使用しており、pdbtools.py として保存したタンパク質構造ファイルを分析するためのいくつかの関数を作成しました。たとえば、データベースからタンパク質構造を取得できる getprot() 関数があります。
ファイルを開いて編集し、Python から保存すると、すべての関数定義を使用できるようになります。ただし、新しい Python セッションを開始すると、作成したすべての関数が忘れられるため、pdbtools.pdb を %edit して保存する必要があり、すべてを実行できます。
何が起きてる?作成した関数をどのように使用しますか?
biopython - PDBファイルからすべてのチェーンを抽出するには?
私はこのページに従います PDBファイルからチェーンを抽出する方法? しかし、私が望むものの完全な解決策を見つけることができません。これが私の質問です:
特定のチェーン ID を指定せずに、pdb 内のすべてのチェーン ID を抽出し、これらのチェーン ID を別の pdb ファイルに書き込みます。pdbに存在するすべてのチェーンを抽出する方法を教えてください。たとえば、pdb に 2 つのチェーンが含まれている場合、2 つのチェーンすべてを別々に記述したいと考えています。
6CHY - A と B の 2 つのチェーンがあります。A チェーンを 6CHY_A.pdb に、B チェーンを 6CHY_B にそれぞれ書きたいと思います。
python - PDB からヘテロ原子を削除する
pdb ファイルからヘテロ原子を削除する必要があります。コードは次のとおりですが、私のテスト PDB 1C4R では機能しませんでした。
なにか提案を?
perl - 2 つの配列内の変数の組み合わせごとに関数を実行する
1 つのデータ セットを取り、そのデータの各値を別のデータ セットで減算しようとしています。
例えば:
だから私はそのようなものを手に入れるべき(1 - (1 .. 5))
です(2 - (1..5))
。
私は現在持っています:
$protein_coords->[0]->[$ticker]->{'z'}
のすべての値から の各値を差し引いたものを取得しようとしています$lipid_coords->[1]->[$ticker]->{'z'}
。
(z2-z1)^2
私の全体的な目的は、方程式を見つけることd = sqrt((x2-x1)^2+(y2-y1)^2-(z2-z1)^2)
です。これが一度できれば、XとYもできると思います。技術的には、同じ PDB 内のすべての脂質原子に対して PDB ファイル内のすべての原子間の距離を見つけ、5A 未満の距離の ResID を出力しようとしています。