問題タブ [dna-sequence]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - Biopython でギャップのあるアラインメントを持つ PWM
Clustalw の複数の配列アラインメントから Biopython で位置加重行列 (PWM) を生成しようとしています。ギャップのあるアラインメントで行うたびに、「間違ったアルファベット」エラーが発生します。ドキュメントを読むと、ギャップのあるアラインメントの「-」文字を処理するには、ギャップのあるアルファベットを利用する必要があると思います。しかし、これを行ってもエラーは解決しません。誰かがこのコードの問題を見ていますか、またはギャップのあるClustalアライメントからPWMを生成するより良い方法を持っていますか?
perl - 遺伝子リストでSNPの位置を見つける
SNP データと遺伝子リスト データがあります。gen list と比較するとき、gen list データの中で SNP cotain の位置を探しています。例えば:
SNP データ :
/li>遺伝子リストデータ:
/li>結果: SNP の 14185 の位置に、gen リストの 16185 の位置に含まれています。
以下は私のコードですが、番号の並べ替えに問題があります。
何点かご教示いただければ幸いです。
r - R の 2 つの遺伝子配列間の相違率を計算する
質問やRパッケージでこれを見つけることができませんでした。うまくいけば簡単です。
2 つの仮説的な遺伝子配列を取り上げます。
2 つの配列間の単一ヌクレオチドのパーセンテージ差 (たとえば 15%) を生成する R コードが必要です。
何かご意見は?前もって感謝します。
wolfram-mathematica - DNA配列のカオスゲーム
このアドレスに投稿された DNA シーケンスのカオス ゲームを作成するための Mathematica コードを試しました: http://facstaff.unca.edu/mcmcclur/blog/GeneCGR.html
これは次のようなものです:
私が持っている fasta シーケンスは AACCTTTGATCAAA のような文字のシーケンスであり、生成されるグラフは次のようになります。
コードは小さなシーケンスでは問題なく動作しますが、たとえば約 40Mb の染色体など、巨大なシーケンスを配置したい場合、プログラムは多くの時間を要し、黒い四角が表示されるだけなので分析できません。前述のコードを改善して、表示される正方形が大きくなるようにすることはできますか?ところで、正方形は正方形単位のみである必要があります。事前にご協力いただきありがとうございます
string - 2つのDNA配列を整列させ、相補的な領域を見つけます
リストから手がかりを見つけようとしましたが、見つかりませんでした。繰り返しトピックを尋ねると申し訳ありません。
私はPERLの初心者であり、2つのDNA配列を取り、2番目の配列の逆を計算し、それらの間の最大相補領域を見つけるプログラムをPERLで作成しようとしています。
入力:
出力:
2番目のシーケンスの逆を見つけるのに問題はありませんが、PERLでのプログラミングスキルは初歩的です。foreachループにcombinedを使用する必要がありますか?
c# - 元の順序で DNA 部分文字列を取得する
長い DNA 配列の部分文字列を取得したい
たとえば、次のようになります。
出力は次のようになります。
次の正規表現パターンを試しました:
それは機能し、結果はリストに入れられますが、元のシーケンスに表示された各結果の順序を取得する方法がわかりません。つまり、とがそれぞれシーケンス 4 のように最初と 2 番目TTXX
に表示されるかどうか、シーケンス 1 のように 2 番目と最初に表示されるかどうか。TXG
2 番目と 3 番目の結果では、match-xx 関数呼び出しは、問題のシーケンスから取得した部分文字列のインデックスを提供しないため、より困難です。あなたの洞察に感謝します。
java - 正規表現:2つのマーカー間のDNA情報を抽出する
ファイルからいくつかのDNA情報を抽出しようとしています。塩基GCATで構成されるDNAデータの前には、という単語ORIGIN
があり、後には。があり//
ます。これらのマーカーの間にこれらのベースを取得するための正規表現を作成するにはどうすればよいですか?
次のことを試しましたが、機能しません。
サンプルデータ:
python - DNA 検索シーケンスの正規表現における複数の不一致
この野蛮なスクリプトを作成して、文字列内の位置の可能なすべての組み合わせで n (最大 n=4) の $ を含む文字列の順列を作成しました。私は最終的に.replace('$','(\\w)')
DNA検索シーケンスのミスマッチに使用します。スクリプトの書き方が原因で、一部の順列の $ の数は要求された数よりも少なくなっています。次に、それらを削除するスクリプトを作成しましたが、効果がないようで、削除スクリプトを実行するたびに、不要な順列がさらに削除されます。以下に貼り付けたコードでは、4 つの不一致がある単純なシーケンスで関数をテストしていることがわかります。次に、毎回削除される式の数をカウントする一連の削除スクリプトを実行します...私の経験では、ワイルドカード $ が 4 つ未満のすべての式を削除するには、約 8 回かかります。これについていくつか質問があります。
「n」個の不一致がある検索用の組み込み関数はありますか? 多分biopythonでも?これまでのところ、Paul_McGuire_regex 関数を見てきました:
文字列の任意の場所で 1 つの不一致を許可する文字列を検索します。
これは、1 つの不一致しか生成しないようです。私は非常に新しいコーダーであるため、そのページの残りの関数のすべてのコードを完全に理解していないことを認めなければなりません。これは自分にとって良い練習になると思うので、このスクリプト全体を書くためのより良い方法はありますか?...Paul_McGuire_regex 関数を必要な回数だけ繰り返すことはできますか?
私にとって最も困惑しているのは、削除スクリプトが初めて 100% 機能しないのはなぜですか?
ご協力いただきありがとうございます。
python - DNA配列の補体を見つける
DNA配列の補体をアミノ酸に翻訳する必要があります
- 最初のシーケンスは通常のシーケンスですが、
- 2つ目は、相補的なシーケンスです。
- +1のあるものは私の相補配列に対応するアミノ酸配列です
- +2のアミノ酸配列は、2番目の塩基から始まる私の相補配列に対応するアミノ酸配列です。
- +3のアミノ酸配列は、三塁から始まる私の相補配列に対応するアミノ酸配列です。
結果を得るために次のコードを試しましたが、補完的なシーケンスが得られます。分割せずに。
誰かが私の結果を得るのを手伝ってくれますか?
storage - ヒトゲノムを保存するには、どれくらいのストレージが必要ですか?
単一のヒトゲノムを保存するために必要なバイト単位のストレージ量 (MB、GB、TB など) を探しています。ウィキペディアで DNA、染色体、塩基対、遺伝子に関する記事をいくつか読み、大まかな推測をしましたが、何かを開示する前に、他の人がこの問題にどのようにアプローチするかを知りたいと思います。
別の質問として、人間の DNA にはいくつの原子があるかという質問がありますが、それはこのサイトの話題から外れます。
これは概算であることを理解しているので、人間の DNA を保存できる最小値を探しています。