問題タブ [dna-sequence]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonによるコドンアラインメント?
Pythonを介してペアワイズコドン アラインメントを実行したいコーディング DNA シーケンスのペアがあり、プロセスを「半分完了」しました。
ここのところ..
- パッケージを使用して、genbank からオルソログ DNA シーケンスのペアを取得し
Biopython
ます。 - オルソロガス ペアをペプチド配列に翻訳し、
EMBOSS Needle
プログラムを使用して整列させます。
私はしたいです..
- ペプチド シーケンスから元の DNA シーケンスにギャップを転送します。
質問
整列したペプチド配列ペアから対応するヌクレオチド配列ペアのコドンにギャップを転送できるプログラム/コード (Python から呼び出される) の提案をいただければ幸いです。または、ペアワイズ コドン アラインメントをゼロから実行できるプログラム/コード。
r - データフレームに保存された DNA シーケンスで as.DNAbin{ape} を使用するには?
1 つの列に遺伝子座名があり、もう 1 つの列に DNA 配列があるデータフレームがあります。as.DNAbin{ape}
DNAbinオブジェクトを作成するために、または類似のものを使用しようとしています。
ここにいくつかのサンプルデータがあります:
x <- structure(c("55548", "43297", "35309", "34468", "AATTCAATGCTCGGGAAGCAAGGAAAGCTGGGGACCAACTTCTCTTGGAGACATGAGCTTAGTGCAGTTAGATCGGAAGAGCA", "AATTCCTAAAACACCAATCAAGTTGGTGTTGCTAATTTCAACACCAACTTGTTGATCTTCACGTTCACAACCGTCTTCACGTT", "AATTCACCACCACCACTAGCATACCATCCACCTCCATCACCACCACCGGTTAAGATCGGAAGAGCACACTCTGAACTCCAGTC", "AATTCTATTGGTCATCACAATGGTGGTCCGTGGCTCACGTGCGTTCCTTGTGCAGGTCAACAGGTCAAGTTAAGATCGGAAGA"), .Dim = c(4L, 2L))
y <- as.DNA(x)
R が長さ 2 (2 つの列だと思います) の 4 つの DNA シーケンス (例の 4 行) を持つ一種の DNAbin オブジェクトを作成しようとすると、ラベルはなく、もちろん塩基組成も機能しません。
ドキュメントはあまり明確ではありませんが、パッケージの woodmouse サンプル データで遊んだ後、各ベースを列として行列を作成し、 を使用する必要があると思いますas.DNAbin
。つまり、上記の例では 4 x 84 の行列 (遺伝子座名に 1 列、配列に 83 列?)。これを行う方法に関するアドバイスはありますか?または、より良いアイデアはありますか?
ありがとう
java - if/else ステートメントのパラメーターで next() を使用する
したがって、next と hasNext を間違って使用していると確信しています... ACGT 文字の文字列を入力し、結果の個々の文字を数えようとしています。前もって感謝します。
java - 文字列から文字数の上限と下限を取得する方法は?
そのため、このプロジェクトの第 2 部で問題が発生しています。各エントリのカウントを与える以下のコードがありますが、高値と安値を取得する方法がわかりません...よろしくお願いします!
A1達人
このプログラムは、A1Novice と同様に入力を処理する必要がありますが、カウントを生成することに加えて、各核酸塩基の最小数と最大数を持つ DNA 鎖を追跡し、それらの鎖を出力に出力する必要があります。したがって、次の入力が与えられます。
プログラムは次の出力を生成する必要があります。
A カウント: 4
C カウント: 2
G カウント: 3
T カウント: 4
Low A カウント: A
High A カウント: AATA
Low C カウント: CC
High C カウント: CC
Low G カウント: GGG
High G カウント: GGG
Low T カウント: AATA
高 T カウント: TTT
python - DNA ジェネレーターのコマンド ライン引数として確率を指定するにはどうすればよいですか?
指定された長さ、コピー数、指定された確率などの DNA シーケンスを吐き出すことができるコードをいくつか書きました。 IDLE では、必要な確率を事前に設定すると、プログラムは正常に動作します。このプログラムをコマンドラインから効率的に実行したい。
長さとコピー数に対して行ったように、確率 (重み) をコマンド ライン引数として実行するにはどうすればよいですか? コマンドラインで確率を引数として組み込む方法がわかりません。ご協力いただきありがとうございます!コードは次のとおりです。
regex - Python regex : 重複するシーケンスの位置
Python 2.7 と正規表現モジュールを使用しています。この式を使用して、長い DNA シーケンス内の短いシーケンスを見つけます。
パラメータは次のとおりです。
- プローブ : ゲノムで探す短い文字列
- ゲノム: 長い文字列
- ミスマッチ : ゲノムからのプローブ/スニペット間で許可する差異の数。
ゲノム内の正規表現に一致するすべてのシーケンスの位置を取得する方法はありますか? このスクリプトは重複する一致を見つけますか? それはかなりうまくいきますが、それから私は試してみることにしました:
私が得た:
['TTGACAT']
パラメータは同じだが不一致 = 10
私が得た:
['TTGACAT','GACATAT']
したがって、スクリプトが 'TTGACAT' を 2 回目の発生と重複するために 1 回だけ検出するのか、それとも実際に 'TTGACAT' を 2 回検出して結果を 1 回だけ表示するのかはわかりません...
ありがとう