問題タブ [dna-sequence]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dna-sequence - ペアエンドリードからペアになっていないリードを削除するには、スクリプトまたはソフトウェアが必要です
AMOScmpを使ってilluminaのペアエンドデータを解析したい。AMOScmp は、.afg ファイルを構築するために同数のペア ファイルを必要とします。元の fq ファイルがペアになっています。fq ファイルを品質、重複シーケンス、およびヒト DNA コントロールに個別に渡した後、対になった end fa ファイルの読み取り数が異なることがわかりました。ペアエンドリードからペアになっていないリードを削除して、同じ数のリードを持つ 2 つの fa ファイルを取得したいと考えています。問題の解決に役立つスクリプトやソフトウェアを知っている人はいますか?
c - 2D文字配列を使用したCでの連結
テキストファイルを1行ずつ2D配列に読み込んでいます。char配列を連結したいので、1つの長いchar配列があります。私はこれに問題があり、2つのchar配列で動作させることができますが、それらの多くを実行しようとするとうまくいきません。
現在、char配列は次のようになっています。
私はこのようなものを手に入れたい:
私は自分のコードのいくつかを含めました。
python - より大きなリスト内の可変サイズのサブリストの処理
私は生物工学の博士課程の学生で、研究の一部を自動化するために Python プログラミングを独学で学ぼうとしていますが、より大きなリスト内のサブリストを処理する際に問題が発生したようです。解決する。
基本的に、私がやろうとしていることの目標は、さまざまな DNA アセンブリ方法を使用して構築しているプラスミド シーケンスのリストを含む CSV ファイルを処理し、必要なプライマー シーケンスを吐き出す小さなスクリプトを作成することです。プラスミドを構築するために注文します。
私が扱っているシナリオは次のとおりです。
プラスミドを構築したい場合、そのプラスミドの全配列を Excel スプレッドシートに入力する必要があります。「Gibson」と「iPCR」と呼ばれる 2 つの DNA アセンブリ方法のいずれかを選択する必要があります。各「iPCR」アセンブリには、リスト内の 1 行しか必要ありません。そのため、構築しようとしているプラスミドの完全な配列を 1 つのセルに入れるだけでよいので、それらの連中を処理する方法は既に知っています。一方、「ギブソン」アセンブリでは、完全な DNA シーケンスを小さなチャンクに分割する必要があるため、1 つのプラスミドを完全に記述するために、Excel スプレッドシート内で 2 ~ 5 行が必要になる場合があります。
したがって、スプレッドシートは次のようになります。
構築.....戦略...名前
1.....ギブソン.....P(OmpC)-cI::P(cI)-LacZ コントローラ
1.....ギブソン.....P(OmpC)-cI::P(cI )-LacZ コントローラー
1.....Gibson.....P(OmpC)-cI::P(cI)-LacZ コントローラー
2.....iPCR.......P(cpcG2)- K1F 位置の K1F コントローラ。フィードバック
3.....ギブソン.....プロモーター位置がスワップされた P(cpcG2)-K1F コントローラー
3.....ギブソン.....プロモーター位置がスワップされた P(cpcG2)-K1F コントローラー
4.. ...iPCR.......P(cpcG2)-より強力な K1F RBS ライブラリを備えた K1F コントローラ
この長さのリストは十分に代表的だと思います。
私が直面している問題は、リストを実行してギブソンを処理できるようにしたいのですが、コードを思いどおりに動作させることができないようです。これまでに書いたコードは次のとおりです。
(私はコードがおそらく初心者に見えることを知っています.Javaの入門以外のプログラミングクラスを行ったことはありません.)
このコードの問題は、「Gibson」アセンブリによって構築しようとしている n 個の「コンストラクト」(別名プラスミド) がある場合、最初の n-1 個のプラスミドは処理されますが、最後のプラスミドは処理されないことです。ただし、このコードを記述するためのより良い方法は考えられませんが、実装しようとしているワークフローについては、リスト内の「n」個のものを処理する方法を知っていることがわかりますが、それぞれの「もの」可変数の行の " は、私にとって本当に便利です。
ここで誰かの助けに本当に感謝します! どうもありがとう!
awk - 推移閉包を計算する
次の方法で類似性を示すペアワイズ DNA シーケンスのデータがあります。
上記はサンプルの入力ファイルで、元のファイルは数百万行です。以下のように、出力を行間の共通要素に基づいて重複する ID をクラスター化し、クラスターごとに 1 行に出力するようにします。
現在、 mclとsilixを使用してそれらをクラスター化しようとしていますが、silix の実行に成功しませんでした。しかし、mcl は現在進行中です。awk または perl でこれを行うスマートな方法が他にあるかどうかを知りたいです。いくつかの解決策に感謝します、ありがとう。(初投稿なので間違っていたらごめんなさい)
簡単にするために..私の入力は、
そして、私は出力が欲しい、
python - 最後のアイテムで使用するために最初のアイテムからデータを取得する必要があるリストを反復処理する
これは、私が尋ねた以前の質問のフォローアップです: Processing a sub-list of variable size within a large list .
itertools を使用して DNA フラグメントのグループを取り出すことができましたが、別の問題に直面しています。
これらの DNA 断片のグループに基づいてプライマーを設計する必要があります。プライマーは、異なる DNA フラグメントからのオーバーラップを含めることによって設計されます。リストにフラグメント A、B、C の 3 つの DNA フラグメントがあるとします。抽出する必要があるのは次のとおりです。
- A の最初の 40 nt と (順番に) 連結する C の最後の 20 ヌクレオチド (nt)、
- A の最後の nt の RC と順番に連結する B の最初の 20 nt の逆補数 (RC)、
- A の最後の 20 nt を B の最初の 40 nt と連結し、
- B の最後の 40 nt の RC と連結する C の最初の 20 nt の RC、
- A の最初の 40 nt と連結する C の最後の 20 nt、
- C の最後の 40 nt の RC と連結する A の最初の 20 nt の RC。
この問題を解決できないようです。どこから始めるのが最適なのかわかりません...
これまでに作成したコードは、「グループ 1」のみを出力します (意図的に、処理している視覚的な出力の量を最小限に抑えることができます)。ここにあります:
どんな助けでも大歓迎です!
python - Pythonでサブソートを行うには?
以前に遭遇した問題を解決してくれた SO コミュニティに感謝します。ここでのヘルプが大好きです!
私は今、さらに別の問題を抱えています。「コンストラクト番号」と「パーツ番号」に関連付けられた DNA 配列のフラット リストがあります。現状では、前のコードから、それを開いて読み込み、インポートする csv ファイルとして持っています。ディクショナリ オブジェクトのリストです。すべてが既に "構成番号" で並べ替えられていますが、次に "部品番号" で並べ替える必要があります (Excel のようなもので、"最初の並べ替え基準" と表示されます)。次に並べ替え_ ."
これを行う方法を知っている人はいますか?これまでのところ、私が書いたのはこれだけです:
これまでの出力のサブセットは、私が扱っているデータを視覚化するために、次のとおりです。
python - リスト内の複数の要素に対して関数を繰り返す
私はこのコードを書きました
次のようなリストを生成します-
['TAAAACACCC', 'TCAATTCAAG', 'GGTTTTTGAG', 'CGAGCTTTTT', 'ACTCAAAGAA', 'TCCAAGATAG', 'CGTTTAAAAA', 'TTTAGGGGTG', 'TTAGGCTCAG', 'CATAGAGTTT']
次のステップは、リストの各要素での文字GC
(または可能性があります)の出現を読み取ることです。CG
出力ファイルが次のようになるようにリストをループする方法はありますか:
ファイルが非常に大きく、セグメントの数(のようなリストの個々の要素'TAAGATATA'
)が膨大になるため、セグメントの数(1、2、3 ...)を取得する方法がわかりません出力ファイルで。また、私はPython(およびプログラミング)が初めてなので、関数をうまく使用するのがあまり得意ではありません。
algorithm - 2つのシーケンス間の類似性の計算の複雑さ
2つの配列間の類似性を計算するための最もよく知られているアルゴリズムの計算の複雑さは何ですか(DNAまたはタンパク質アラインメント/近似文字列マッチングなど)?
類似性は以下に基づいています:
置換スコアリングマトリックスを使用してアラインメントをスコアリングします(タンパク質アルファベットの20シンボルまたはDNAアルファベットの4シンボルのグローバルまたは位置固有の置換の場合)
BowtieおよびBWAショートリードアライナーで使用されるBurrows–Wheeler変換の線形時間は、実際の最先端のものですか、それとも同じ問題を解決する劣線形アルゴリズムがありますか?
[編集]:参照データセットの前処理/インデックス付けを想定して劣線形になる近似マッチングにLSHを適用することを考えています
python - 正規表現 python Fasta
前回はアドバイスありがとうございました
別の正規表現の問題があります:
今、私はこのパターンのリストを持っています:
Fasta 形式の DNA シーケンスを含むファイル:
改行を編集
Fasta ファイル (例: >OCTU7 および >OCTU33) で * を含むリスト内の番号 (例: 7 または 33) を検索し、リストに存在する Fasta シーケンスのみを別のファイルにコピーする必要があります。私のスクリプトです:
スクリプトは機能しているようですが、作成されたファイルが空であるため、パターンが正しくないと思います。
貴重なアドバイスをいただきありがとうございます。
c++ - C++ 非互換型: 対立遺伝子頻度の計算
入力ファイルは次のようになります。
1-1_サンプル1 GCCCATGGCT 2-1_サンプル1 GAGTGTATGT 3-1_サンプル1 TGTTCTATCT 1-1_サンプル2 GCTTAGCCAT 2-1_サンプル2 TGTAGTCAGT 3-1_サンプル2 GGGAACCAAG 1-1_サンプル3 TGGAAGCGGT 2-1_サンプル3 CGGGAGGAGAGA3
背景: 私は C++ に非常に慣れていないため、大学院での研究を補うために C++ を使用する方法を独学で学ぼうとしています。私は遺伝学の博士号候補で、さまざまな進化の歴史をモデル化し、それらが集団全体の対立遺伝子の頻度にどのように影響するかを研究しています。
質問: 入力ファイルから作成した「dna」配列からデータの特定の部分を抽出しようとしています。たとえば、ここでは別の配列 "Af" を作成しました。そこでは、いわば dna 配列の最初の "セル" のカウントを抽出しようとしています。これを行う目的は、特定の細胞グループのカウントを DNA アレイ全体と比較して頻度を計算できるようにすることです。これを行う方法がわかりません。「「FLOAT[1][1]」への「FLOAT」の割り当てに互換性のないタイプがあります」
さまざまなフォーラムでこれを調査するのに多くの時間を費やしましたが、このエラーが何を意味するのか、達成しようとしていることを達成する方法を理解できないようです。
したがって、私が視覚化している DNA 配列は、4 つの行 (A、C、G、T) があるように入力ファイルから作成されます。次に 10 列 (一連のヌクレオチドごとに 1 列)。次に、この「グリッド」が 3 回スタックされます (入力ファイルにリストされているように、サンプルごとに 1 つの「シート」(ここでのサンプルは母集団を意味し、母集団ごとに 3 人の個体が存在します))。したがって、このグリッドのスタックから、たとえば、最初のセル (サンプル 1 の位置 1 の A の数) を抽出したいと考えています。次に、この数をすべてのサンプルの位置 1 の A の総数と比較します。この頻度は、テストしているモデルにとって意味のある数値になります。
問題は、dna配列の一部を抽出する方法がわからないことです.この要約された例を理解したら、非常に大きな入力ファイルに適用し、一度に複数のセルを抽出したいと思うでしょう.