“dna-sequence”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1354 参照

dna-sequence - ペアエンドリードからペアになっていないリードを削除するには、スクリプトまたはソフトウェアが必要です

AMOScmpを使ってilluminaのペアエンドデータを解析したい。AMOScmp は、.afg ファイルを構築するために同数のペアファイルを必要とします。元の fq ファイルがペアになっています。fq ファイルを品質、重複シーケンス、およびヒト DNA コントロールに個別に渡した後、対になった end fa ファイルの読み取り数が異なることがわかりました。ペアエンドリードからペアになっていないリードを削除して、同じ数のリードを持つ 2 つの fa ファイルを取得したいと考えています。問題の解決に役立つスクリプトやソフトウェアを知っている人はいますか?

dna-sequence

2012-11-02T21:29:00.497

0 投票する

1 に答える

840 参照

c - 2D文字配列を使用したCでの連結

テキストファイルを1行ずつ2D配列に読み込んでいます。char配列を連結したいので、1つの長いchar配列があります。私はこれに問題があり、2つのchar配列で動作させることができますが、それらの多くを実行しようとするとうまくいきません。

現在、char配列は次のようになっています。

私はこのようなものを手に入れたい：

私は自分のコードのいくつかを含めました。

c char concatenation dna-sequence

2012-12-09T01:24:59.300

0 投票する

2 に答える

233 参照

python - より大きなリスト内の可変サイズのサブリストの処理

私は生物工学の博士課程の学生で、研究の一部を自動化するために Python プログラミングを独学で学ぼうとしていますが、より大きなリスト内のサブリストを処理する際に問題が発生したようです。解決する。

基本的に、私がやろうとしていることの目標は、さまざまな DNA アセンブリ方法を使用して構築しているプラスミドシーケンスのリストを含む CSV ファイルを処理し、必要なプライマーシーケンスを吐き出す小さなスクリプトを作成することです。プラスミドを構築するために注文します。

私が扱っているシナリオは次のとおりです。

プラスミドを構築したい場合、そのプラスミドの全配列を Excel スプレッドシートに入力する必要があります。「Gibson」と「iPCR」と呼ばれる 2 つの DNA アセンブリ方法のいずれかを選択する必要があります。各「iPCR」アセンブリには、リスト内の 1 行しか必要ありません。そのため、構築しようとしているプラスミドの完全な配列を 1 つのセルに入れるだけでよいので、それらの連中を処理する方法は既に知っています。一方、「ギブソン」アセンブリでは、完全な DNA シーケンスを小さなチャンクに分割する必要があるため、1 つのプラスミドを完全に記述するために、Excel スプレッドシート内で 2 ～ 5 行が必要になる場合があります。

したがって、スプレッドシートは次のようになります。

構築.....戦略...名前

1.....ギブソン.....P(OmpC)-cI::P(cI)-LacZ コントローラ
1.....ギブソン.....P(OmpC)-cI::P(cI )-LacZ コントローラー
1.....Gibson.....P(OmpC)-cI::P(cI)-LacZ コントローラー
2.....iPCR.......P(cpcG2)- K1F 位置の K1F コントローラ。フィードバック
3.....ギブソン.....プロモーター位置がスワップされた P(cpcG2)-K1F コントローラー
3.....ギブソン.....プロモーター位置がスワップされた P(cpcG2)-K1F コントローラー
4.. ...iPCR.......P(cpcG2)-より強力な K1F RBS ライブラリを備えた K1F コントローラ

この長さのリストは十分に代表的だと思います。

私が直面している問題は、リストを実行してギブソンを処理できるようにしたいのですが、コードを思いどおりに動作させることができないようです。これまでに書いたコードは次のとおりです。

(私はコードがおそらく初心者に見えることを知っています.Javaの入門以外のプログラミングクラスを行ったことはありません.)

このコードの問題は、「Gibson」アセンブリによって構築しようとしている n 個の「コンストラクト」(別名プラスミド) がある場合、最初の n-1 個のプラスミドは処理されますが、最後のプラスミドは処理されないことです。ただし、このコードを記述するためのより良い方法は考えられませんが、実装しようとしているワークフローについては、リスト内の「n」個のものを処理する方法を知っていることがわかりますが、それぞれの「もの」可変数の行の " は、私にとって本当に便利です。

ここで誰かの助けに本当に感謝します! どうもありがとう！

python nested-lists dna-sequence

2012-12-28T01:18:21.567

0 投票する

2 に答える

330 参照

awk - 推移閉包を計算する

次の方法で類似性を示すペアワイズ DNA シーケンスのデータがあります。

上記はサンプルの入力ファイルで、元のファイルは数百万行です。以下のように、出力を行間の共通要素に基づいて重複する ID をクラスター化し、クラスターごとに 1 行に出力するようにします。

現在、 mclとsilixを使用してそれらをクラスター化しようとしていますが、silix の実行に成功しませんでした。しかし、mcl は現在進行中です。awk または perl でこれを行うスマートな方法が他にあるかどうかを知りたいです。いくつかの解決策に感謝します、ありがとう。(初投稿なので間違っていたらごめんなさい)

簡単にするために..私の入力は、

そして、私は出力が欲しい、

awk bioinformatics dna-sequence transitive-closure

2013-01-10T20:52:33.200

0 投票する

2 に答える

105 参照

python - 最後のアイテムで使用するために最初のアイテムからデータを取得する必要があるリストを反復処理する

これは、私が尋ねた以前の質問のフォローアップです: Processing a sub-list of variable size within a large list .

itertools を使用して DNA フラグメントのグループを取り出すことができましたが、別の問題に直面しています。

これらの DNA 断片のグループに基づいてプライマーを設計する必要があります。プライマーは、異なる DNA フラグメントからのオーバーラップを含めることによって設計されます。リストにフラグメント A、B、C の 3 つの DNA フラグメントがあるとします。抽出する必要があるのは次のとおりです。

A の最初の 40 nt と (順番に) 連結する C の最後の 20 ヌクレオチド (nt)、
A の最後の nt の RC と順番に連結する B の最初の 20 nt の逆補数 (RC)、
A の最後の 20 nt を B の最初の 40 nt と連結し、
B の最後の 40 nt の RC と連結する C の最初の 20 nt の RC、
A の最初の 40 nt と連結する C の最後の 20 nt、
C の最後の 40 nt の RC と連結する A の最初の 20 nt の RC。

この問題を解決できないようです。どこから始めるのが最適なのかわかりません...

これまでに作成したコードは、「グループ 1」のみを出力します (意図的に、処理している視覚的な出力の量を最小限に抑えることができます)。ここにあります：

どんな助けでも大歓迎です！

python dna-sequence

2013-01-11T02:03:45.133

0 投票する

3 に答える

1100 参照

python - Pythonでサブソートを行うには?

以前に遭遇した問題を解決してくれた SO コミュニティに感謝します。ここでのヘルプが大好きです!

私は今、さらに別の問題を抱えています。「コンストラクト番号」と「パーツ番号」に関連付けられた DNA 配列のフラットリストがあります。現状では、前のコードから、それを開いて読み込み、インポートする csv ファイルとして持っています。ディクショナリオブジェクトのリストです。すべてが既に "構成番号" で並べ替えられていますが、次に "部品番号" で並べ替える必要があります (Excel のようなもので、"最初の並べ替え基準" と表示されます)。次に並べ替え_ ."

これを行う方法を知っている人はいますか？これまでのところ、私が書いたのはこれだけです：

これまでの出力のサブセットは、私が扱っているデータを視覚化するために、次のとおりです。

python list sorting dna-sequence

2013-01-19T17:03:42.160

0 投票する

2 に答える

137 参照

python - リスト内の複数の要素に対して関数を繰り返す

私はこのコードを書きました

次のようなリストを生成します-

['TAAAACACCC', 'TCAATTCAAG', 'GGTTTTTGAG', 'CGAGCTTTTT', 'ACTCAAAGAA', 'TCCAAGATAG', 'CGTTTAAAAA', 'TTTAGGGGTG', 'TTAGGCTCAG', 'CATAGAGTTT']

次のステップは、リストの各要素での文字GC(または可能性があります)の出現を読み取ることです。CG出力ファイルが次のようになるようにリストをループする方法はありますか:

ファイルが非常に大きく、セグメントの数（のようなリストの個々の要素'TAAGATATA'）が膨大になるため、セグメントの数（1、2、3 ...）を取得する方法がわかりません出力ファイルで。また、私はPython（およびプログラミング）が初めてなので、関数をうまく使用するのがあまり得意ではありません。

python fasta dna-sequence

2013-01-22T17:24:12.303

0 投票する

1 に答える

283 参照

algorithm - 2つのシーケンス間の類似性の計算の複雑さ

2つの配列間の類似性を計算するための最もよく知られているアルゴリズムの計算の複雑さは何ですか（DNAまたはタンパク質アラインメント/近似文字列マッチングなど）？

類似性は以下に基づいています：

置換スコアリングマトリックスを使用してアラインメントをスコアリングします（タンパク質アルファベットの20シンボルまたはDNAアルファベットの4シンボルのグローバルまたは位置固有の置換の場合）
ギャップペナルティ

BowtieおよびBWAショートリードアライナーで使用されるBurrows–Wheeler変換の線形時間は、実際の最先端のものですか、それとも同じ問題を解決する劣線形アルゴリズムがありますか？

[編集]：参照データセットの前処理/インデックス付けを想定して劣線形になる近似マッチングにLSHを適用することを考えています

algorithm complexity-theory bioinformatics dna-sequence

2013-02-09T03:01:43.423

0 投票する

3 に答える

1699 参照

python - 正規表現 python Fasta

前回はアドバイスありがとうございました

別の正規表現の問題があります：

今、私はこのパターンのリストを持っています:

Fasta 形式の DNA シーケンスを含むファイル:

改行を編集

Fasta ファイル (例: >OCTU7 および >OCTU33) で * を含むリスト内の番号 (例: 7 または 33) を検索し、リストに存在する Fasta シーケンスのみを別のファイルにコピーする必要があります。私のスクリプトです：

スクリプトは機能しているようですが、作成されたファイルが空であるため、パターンが正しくないと思います。

貴重なアドバイスをいただきありがとうございます。

python regex dna-sequence

2013-02-18T15:29:39.190

0 投票する

1 に答える

189 参照

c++ - C++ 非互換型: 対立遺伝子頻度の計算

入力ファイルは次のようになります。

1-1_サンプル1 GCCCATGGCT 2-1_サンプル1 GAGTGTATGT 3-1_サンプル1 TGTTCTATCT 1-1_サンプル2 GCTTAGCCAT 2-1_サンプル2 TGTAGTCAGT 3-1_サンプル2 GGGAACCAAG 1-1_サンプル3 TGGAAGCGGT 2-1_サンプル3 CGGGAGGAGAGA3

背景: 私は C++ に非常に慣れていないため、大学院での研究を補うために C++ を使用する方法を独学で学ぼうとしています。私は遺伝学の博士号候補で、さまざまな進化の歴史をモデル化し、それらが集団全体の対立遺伝子の頻度にどのように影響するかを研究しています。

質問: 入力ファイルから作成した「dna」配列からデータの特定の部分を抽出しようとしています。たとえば、ここでは別の配列 "Af" を作成しました。そこでは、いわば dna 配列の最初の "セル" のカウントを抽出しようとしています。これを行う目的は、特定の細胞グループのカウントを DNA アレイ全体と比較して頻度を計算できるようにすることです。これを行う方法がわかりません。「「FLOAT[1][1]」への「FLOAT」の割り当てに互換性のないタイプがあります」

さまざまなフォーラムでこれを調査するのに多くの時間を費やしましたが、このエラーが何を意味するのか、達成しようとしていることを達成する方法を理解できないようです。

したがって、私が視覚化している DNA 配列は、4 つの行 (A、C、G、T) があるように入力ファイルから作成されます。次に 10 列 (一連のヌクレオチドごとに 1 列)。次に、この「グリッド」が 3 回スタックされます (入力ファイルにリストされているように、サンプルごとに 1 つの「シート」(ここでのサンプルは母集団を意味し、母集団ごとに 3 人の個体が存在します))。したがって、このグリッドのスタックから、たとえば、最初のセル (サンプル 1 の位置 1 の A の数) を抽出したいと考えています。次に、この数をすべてのサンプルの位置 1 の A の総数と比較します。この頻度は、テストしているモデルにとって意味のある数値になります。

問題は、dna配列の一部を抽出する方法がわからないことです.この要約された例を理解したら、非常に大きな入力ファイルに適用し、一度に複数のセルを抽出したいと思うでしょう.

c++arrays multidimensional-array genetic dna-sequence

2013-02-26T22:49:55.030

問題タブ [dna-sequence]

Reference