問題タブ [protein-database]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 引き揃え文字位置
ペアワイズ アラインを使用して、次の結果を取得します。
その後、次を使用できます。
パターンと件名の両方の完全な文字列シーケンスを取得します。しかし、オブジェクトから 448 と 1 を整数として取得するにはどうすればよいでしょうか。これらの数値を使用する必要がありますが、取得する方法がないようです。
python - Biopython で PQR ファイルを解析する方法
BiopythonでPQRファイル (占有率と B 係数が原子電荷と半径に置き換えられた修正済みPDBファイル)を読み取れるようにしたいと考えています。
Biopython PDB パーサーは、Bfactor の読み取りに失敗します。これは、PDB 列のインデックス (PQR 形式では考慮されない) によって値を取得するためです。
標準的な PDB アトム レコードの例:
1.00 は占有率、48.46 は bfactor です。
そして PQR :
0.1010 は電荷で、1.8240 は半径です
"PDBConstructionException: Invalid or missing B factor"では、電荷/半径の値を回避して適切に解析するにはどうすればよいですか?
xml - Uniprot ダウンロードの情報を編集する方法 (txt または XML)
タンパク質グループの Uniprot ファイルをダウンロードしました (n>1000 であるため、これらのタンパク質を手動でチェックすることはできません)。完全なデータ ファイルは、フラット テキスト ファイルまたは XML ファイルとして提供されます。これらのファイルには多くの情報が含まれています (たとえば、ここを参照してください: http://www.uniprot.org/uniprot/?query=organism%3A%22homo+sapiens%22を参照してから、ダウンロードにアクセスしてください。 txt または xml ファイルの完全なデータについては、最初の 10 個を参照してください)。
彼らには必要のない情報がたくさんあるので、興味のある情報を選択する方法を見つける必要があります (できればデータマトリックスで)。すべてのエントリについて、これは次のとおりです。
一部のエントリにはすべての情報が含まれていない場合があり (膜貫通ドメインなど)、NA が入力される場合があります。一部のエントリには、同じ種類の複数回の情報が含まれる場合があります (膜貫通ドメインなど)。これらについては、すべてに名前を付ける必要があります。 (可能であれば、「,」または「;」または「|」で区切られた同じセル内)。
私はRに少し慣れていますが、それでここまでたどり着くことができませんでした(プログラミングスキルが不足している可能性があります)。私は XML エディターを調べました (これが最も簡単な解決策のように思われるため) が、何も機能させることができませんでした。途中で役立つものを見つけることができず、さまざまな手順を説明することができませんでした。また、R で XML ファイルを処理する方法が必要であることも知っていますが、そこにあるヘルプ ファイルも必要な場所に移動できませんでした。XMLQuire では、これまでにダウンロードできた唯一のもので、ファイルを見ることができましたが、何かをしたいときにクラッシュし続けます (ファイルを編集できる場所を見つけようとしているだけでも)。 )、ファイルが長すぎるか、別の問題がある可能性があります。
同様のことをした人を見つけたいと思っていますが、フリーウェアである限り、どんなに小さくても、どのプログラムを使用する必要があっても、すべての解決策を歓迎します。
また、不明な点がある場合はお知らせください。できる限り明確にするように努めています。そして、この件に関してそのようなブロンディになって申し訳ありません。
tree - d3 は pfam ドメインを描画できますか
簡単な質問です。d3 を使用して、次のようなタンパク質ドメインを描画できますか?
私の計画は、これらの小さなタンパク質ドメインをツリーに接続することです。
よろしくお願いします!
python - Biopython 1.60 の Bio.Entrez とタンパク質の問題
Bio.Entrez を使用してタンパク質を検索する際に問題が発生しています。私はこれをやっています:
einfo() にも問題があります。これを確認してください。
タンパク質データベースがサポートされていないのはなぜですか? 誰かがこの問題で私を助けることができますか?
regex - fasta ファイルからのランダムなサブセット シーケンスの生成
世界中の Perl マスターにこんにちは。
私はプログラミングに関して別の問題を抱えています。特定の入力番号を持つプロテオム fasta ファイルからランダムなシーケンスを選択するプログラムをコーディングしています。
一般的な fasta ファイルは次のようになります。
>seq_ID_1 説明など
>seq_ID_2 説明など ASDGDSAHSAHASDFRHGSDHSDGEWTSHSDHDSHFSDGSGASGADGHHAH ASDSADGDASHDASHSAREWAWGDASHASGASGASG
等々.......
文字はアミノ酸ペプチドを表します。
したがって、1000 シーケンスの fasta ファイルがあり、それらの 63.21% (632.1 シーケンス) を取得したいと考えています。ただし、シーケンスは浮動小数点数にすることはできないため、0.5 を超える場合は切り上げ、0.5 未満の場合は切り捨てます。
これは、ランダム シーケンス サブセットを生成するための私のコードですが、少しうまく動作しません。
ただし、適切な数のシーケンスが得られることもあれば、もう 1 つのシーケンスが得られることもあります。どうすればそれを取り除くことができますか...何かアイデアをお願いします?
またはおそらくより短いコードですか?
ここでは、75 酵母プロテオム ファイルを取得できます。[http://www.peroxisomedb.org/Download/Saccharomyces_cerevisiae.fas][1]
これをすぐに修正できることを願っています... :(
python - 複数の構造を持つ PDB ファイルを配列に解析する
数千の構造を持つ PDB ファイルがあり、たとえば最初の 10 個の構造のアルファ炭素の位置座標を numpy 配列に保存したいと考えています。以下のコードを使用して、単一の構造を持つ PDB ファイルを配列に解析できますが、これを多くの構造を持つファイルに拡張することはできません。
python - Python スクリプトを使用して .pdb ファイルを出力するにはどうすればよいですか?
現在、Pythonで .pdb (タンパク質データ バンク) ファイルを操作しています。私の最終目標は、Python スクリプトを pdb ファイルに戻して、VMD または PyMol でシミュレーションを実行できるようにすることです。
python - タンパク質構造のモデル化のための Prody python
ProDy を使用してタンパク質の構造をモデル化できますか? Python を使用してタンパク質の構造をモデル化できる他の方法はありますか?
ありがとうございました