問題タブ [fastq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
13 に答える
22418 参照

shell - SED/AWK を使用して FASTQ を FASTA に変換する

次の形式 (FASTQ と呼ばれる) の 4 つのブロックで常に来るデータがあります。

それらをこの形式(FASTAと呼ばれる)に変換する簡単なsed / awk / bashの方法はありますか:

原則として、各ブロック 4 の最初の 2 行を抽出し@>.

0 投票する
1 に答える
3361 参照

r - RでFASTQ ASCIIを10進数と16進数に変換する

一連の ASCII 文字として表示される FASTQ 品質スコアがあります。この場合、(おそらく) ASCII 文字 64 から 126 は 0 から 62 のスコアを表します (イルミナであると仮定します)。これにより、基になるシーケンスが発生します。

feffefdfbefdfffcfdeTddaYddffbfcI`S_KKX_]]MR[D_TY[VTVXQ]`Q_BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB

ASCII文字の数を抽出するにはどうすればよいですか?

ありがとうサン

編集: このシーケンスは、塩基 (文字 (ATGC) を意味する核酸の塩基対から) で構成される生物学的シーケンスの品質を示します。基本品質は、-10 log10 Pr{base is wrong} に等しい phred スケールの基本エラー確率です。

0 投票する
2 に答える
168 参照

python - python ループについて

私には2つのパスがあります

path1 には、一連の fastq ファイルがあります。

path2 には、path1 の fastq ファイルに対応する多くの .txt があります。

これで、path1 の fastq ファイルから fastq_seq_num を計算するスクリプトを作成しました。以下を参照してください。

また、path2 の .txt ファイルから num_seq_processed_sai を計算します。以下を参照してください。

さて、私の問題は次のとおりです。パス1の最初のfastqファイルのfastq_seq_numを計算するループを作成したいです。次に、path2 の FIRST txt ファイルの num_seq_processed を計算します。次に、この 2 つの数値を比較します。その後、ループを終了します。次に、2 番目のループが開始されます...これを実現するためにループを設計するにはどうすればよいですか? ありがとう!!!

0 投票する
1 に答える
1699 参照

bioinformatics - FASTQ シーケンス ファイルを作成するにはどうすればよいですか?

単純な文字シーケンス ( など) を含むゲノム データベースがあります>chr1 AGTGTCA.....。ここで、次のように標準のFASTQ 形式に変換したいと思います。

このタイプの形式について明確な考えがないため、変換できません。上記の例のように、単純な文字シーケンスを FASTQ 形式に変換するにはどうすればよいですか?

具体的には、私は尋ねています:

  1. エンコーディングを行う既存のコードはありますか?
  2. そうでない場合、FASTQ で文字シーケンスをエンコードするにはどうすればよいですか? この形式は何を意味し、どのように作成できますか?
0 投票する
4 に答える
25820 参照

list - bash:/ bin / ls:引数リストが長すぎます

以下のような多数のファイル(40,000ファイル)のリストを作成する必要があります。

私のコマンドは次のとおりです。ls ERR*_1_*.fastq |sed 's/\.fastq//g'|sort -n > masterlist ただし、エラーは次のとおりです。bash: /bin/ls: Argument list too long

しかし、私はこの問題を解決できますか?perl / pythonでこのようなリストを作成する他の方法はありますか?

どうも

0 投票する
4 に答える
25470 参照

python - set() よりも Python でのメンバーシップ テストの高速化

10 ~ 100k の要素を含むリストで、何百万もの要素 (20 ~ 30 文字の文字列) の存在を確認する必要があります。Pythonでそれを行うより速い方法はありset()ますか?

0 投票する
3 に答える
786 参照

bash - スクリプト内の出力としてエコーを保存

以下は私のコードのほんの一部です:

このifループは出力を「エコー」します。ただし、エコー出力を何らかのファイルに保存したいと考えています。そして、この WITHIN スクリプトを管理したいと思います。私はおそらくsthを意味します。お気に入り:

しかし、明らかにこれは機能しません。スクリプト内でエコー出力を保存する正しい方法を求めています。

どうも

0 投票する
1 に答える
631 参照

design-patterns - 文字列内でパターンがすべて出現する位置を見つける

私は DNA シーケンス ファイル (FASTQ ファイル) に取り組んでいます。

@Read1-良い

@Read2- 2 つの悪い場所があります。

@Read3 : 1 つ良い、1 つ早い

@Read4 : 1 つ良い、1 つ後

シーケンス (@ で始まる行の下の行) 内で 6 文字の長さのパターン (GAACG) を探したい。

重要なことは、パターンが文字列内の 42 の位置にあることです。

その位置にパターンが見つかった場合は、シーケンスをその前の行とその次の 2 行と共に新しいファイルにコピーします。awk でこれを試すと、すべての index()、match() 関数は最初のオカレンスのみを調べ、それ以上は調べないため、機能しませんでした。そのため、位置 41 の前にパターンが見つかった場合、データはコピーされません。新しいファイル。

基本的に、私のスクリプトは読み取り 1、3、および 4 を返す必要があります...

FASTQ ファイルのパターンをスクリーニングし、パターンが見つかったすべての位置を評価し、パターンが他の位置にも存在するかどうかに関係なく、位置 42 にある配列のみを考慮するにはどうすればよいですか?

0 投票する
1 に答える
708 参照

performance - fastq の解析速度を向上させる

同じコードの @solved C# は 2 倍高速です

perl で phred33 fastq ファイルを解析していますが、かなりの時間がかかります (15 分程度)。fastq ファイルは約 3 GB です。これを高速化する合理的な方法はありますか?

0 投票する
4 に答える
3018 参照

bioinformatics - bam/sam ファイルでイルミナの読み取りをトリムする

fastq 形式の読み取りをトリミングするためのツールはたくさん見つかりましたが、既に整列された読み取りをトリミングするために利用できるツールはありますか?