問題タブ [bioinformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - 置換率のある合成DNA配列の生成
これらの入力が与えられた場合:
生成したい:
1000の長さ-10タグ
タグ内の各位置の置換率は0.003です
次のような出力を生成します。
Perlでそれを行うコンパクトな方法はありますか?
私はこのスクリプトのロジックをコアとして使用しています。
python - PythonでHTTPを介してUniProtと通信するにはどうすればよいですか?
タンパク質データベースであるUniProtからいくつかの結果を取得しようとしています(詳細は重要ではありません)。ある種類のIDから別の種類のIDに変換するスクリプトを使用しようとしています。これはブラウザで手動で行うことができましたが、Pythonではできませんでした。
http://www.uniprot.org/faq/28には、いくつかのサンプルスクリプトがあります。私はPerlを試しましたが、うまくいくようです。問題はPythonの試みです。(動作する)スクリプトは次のとおりです。
私の質問は次のとおりです。
1)Pythonでそれをどのように行いますか?
2)それを大規模に「スケーリング」することはできますか(つまり、クエリフィールドで多くのエントリを使用する)?
perl - Perlで2つのFASTAファイル(1つのファイルに改行が含まれている)をマージするにはどうすればよいですか?
次の2つのFastaファイルがあります。
file1.fasta
file2.qual
各fastaヘッダーの「qual」ファイルの改行に注意してください-「>」でマークされています。ファイルヘッダーの数('>')は、両方のファイルで同じです。数値品質の数=シーケンスの長さ。
私がやりたいのは、この2つのファイルを追加して次のようにすることです。
しかし、どういうわけか、以下の私のコードはそれを正しく行うことができませんか?特に、「qual」ファイルの各エントリの2行目は出力されません。
それを行う正しい方法は何ですか?
java - ホスト名と TCP/IP を見つけるための DNS サービス レコードのクエリ
ライフ サイエンス識別子(ライフ サイエンス識別子解決サービスをテストするためのツールである LSID テスターを参照)に関する論文で、Roderic DM Page 博士は次のように書いています。
LSID urn:lsid**:ubio.org**:namebank:11815 を指定して、DNS に_lsid._tcpの SRV レコードを照会します。ubio.orgは、ubio.org LSID サービスの場所として animalia.ubio.org:80 を返します。
UNIX でhostコマンドを使用して、_lsid._tcp.ubio.org を animalia.ubio.org:80 にリンクできることを知りました。
Java J2SE API を使用してこの「DNS」を行うにはどうすればよいですか (外部の Java ライブラリがなければ、軽量のソリューションが必要です)。
ありがとうございました
operating-system - バイオインフォマティクスに最適な OS?
バイオインフォマティクスの作業に最適なオペレーティング システムはどれですか? ほとんどのツールは 64 ビット Windows 用ですか、Linux/Unix 一般用ですか、それとも OS X 用ですか?
version-control - プロではないプログラマーに優れた開発慣行を奨励しますか?
余暇には、ソフトウェア、データベース、その他のツールを開発する多くの科学者(主に生物学者)と協力しています。
通常、これらのプロジェクトは1回限りで構築され、社内で使用され、最終的に誰かが「ああ、これは他の人に役立つ可能性がある」と判断するため、バイナリをリリースするか、PHPインターフェイスをスラップして、ウェブ。ただし、通常、ソースコードやデータベースのダンプを他の開発者が利用できるようにすることはできません。したがって、実際には、これらのプロジェクトは通常、コードが記述されたプロジェクトが終了するか、資金を失うと消滅します。数か月(または数年)後、他のラボで同じ種類のツールが必要になります。最初のラボで行った作業を繰り返す必要があり、そのプロジェクトは最終的には消滅し、泡立ち、すすぎ、繰り返します。
プログラミングを主な仕事としない人々に、自分たちが構築したツールをもっとオープンにすることがコミュニティにとって有益であると説得する方法について、誰かが何か提案はありますか?
同様に、バージョン管理、バグトラッキング、リファクタリング、自動テスト、継続的インテグレーション、およびプロの開発者が当然と考えているその他の一般的な慣行は、時間を費やす価値のあるアイデアであるという考えを伝える方法に関するアドバイスはありますか?
残念ながら、多くの科学者は、プログラミングは退屈で、作業を必要とする悪であり、彼らの研究ははるかに重要であるという意見を持っているようです。全体として、開発基準の水準を上げることでした。誰もが恩恵を受けるでしょう。
このような状況になったことがありますか?何があなたのために働いたのですか?
python - 2 つの大きな辞書で一致するキーを見つけてすばやく実行する
2 つの異なる辞書で対応するキーを見つけようとしています。それぞれに約 600k のエントリがあります。
たとえば、次のように言います。
myRDP の値と一致するため、Actinobacter (8924342) の値を出力したいと思います。
次のコードは機能しますが、非常に遅いです。
次のことを試しましたが、常に KeyError が発生します。
これを行うためにCで実装された機能はおそらくありますか?私は周りをグーグルで検索しましたが、何も機能していないようです。
ありがとう。
perl - Perl再帰テクニック?
このコードについて少し助けが必要です。私は再帰的であるべきセクションを知っています、または少なくとも私はそう思うと思いますが、それを実装する方法がわかりません。ゼロ値に戻る複数のルートを見つけるアライメントマトリックスからパスファインディングプログラムを実装しようとしています。たとえば、私のコードを実行し、最初のシーケンスとしてCGCAを挿入し、2番目のシーケンスとしてCACGTATを挿入し、一致、不一致、およびギャップのスコアとして1、0、および-1を挿入したとします。プログラムは、HDHHDDとしてのパスと、
CACGTAT
CGC--A-。
しかし、私がいくつあるかわからないことを除いて、これよりも多くの可能なパスとアラインメントがあります。私がやりたいのは、コードの一部をループバックさせて、他のパスとアラインメントを見つけ、最初と同じコードを使用して、可能なアラインメントがなくなるまでです。これを行うためにネット上で見つけた最善の方法は、再帰です。ただし、誰もそれを行う方法を説明できません。この場合、さらに2つのパスとアラインメントHDDDHHDとCACGTAT、およびC--GCA-とが必要です。HDDDDHH、CACGTATおよび--CGCA-。このタスクを実行するためのコーディング方法がわかりません。
誰かが疑問に思っているなら、これはニードルマン-ブンシュアルゴリズムです。ここでのどんな助けも大いに認められるでしょう。