“fastq”の関連問題_Stack Overflow日本語サイト

0 投票する

13 に答える

22418 参照

shell - SED/AWK を使用して FASTQ を FASTA に変換する

次の形式 (FASTQ と呼ばれる) の 4 つのブロックで常に来るデータがあります。

それらをこの形式（FASTAと呼ばれる）に変換する簡単なsed / awk / bashの方法はありますか：

原則として、各ブロック 4 の最初の 2 行を抽出し@、>.

2009-10-09T07:22:51.063

0 投票する

1 に答える

3361 参照

r - RでFASTQ ASCIIを10進数と16進数に変換する

一連の ASCII 文字として表示される FASTQ 品質スコアがあります。この場合、(おそらく) ASCII 文字 64 から 126 は 0 から 62 のスコアを表します (イルミナであると仮定します)。これにより、基になるシーケンスが発生します。

feffefdfbefdfffcfdeTddaYddffbfcI`S_KKX_]]MR[D_TY[VTVXQ]`Q_BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB

ASCII文字の数を抽出するにはどうすればよいですか?

ありがとうサン

編集: このシーケンスは、塩基 (文字 (ATGC) を意味する核酸の塩基対から) で構成される生物学的シーケンスの品質を示します。基本品質は、-10 log10 Pr{base is wrong} に等しい phred スケールの基本エラー確率です。

r ascii fastq

2011-02-17T05:03:20.920

0 投票する

2 に答える

168 参照

python - python ループについて

私には2つのパスがあります

path1 には、一連の fastq ファイルがあります。

path2 には、path1 の fastq ファイルに対応する多くの .txt があります。

これで、path1 の fastq ファイルから fastq_seq_num を計算するスクリプトを作成しました。以下を参照してください。

また、path2 の .txt ファイルから num_seq_processed_sai を計算します。以下を参照してください。

さて、私の問題は次のとおりです。パス1の最初のfastqファイルのfastq_seq_numを計算するループを作成したいです。次に、path2 の FIRST txt ファイルの num_seq_processed を計算します。次に、この 2 つの数値を比較します。その後、ループを終了します。次に、2 番目のループが開始されます...これを実現するためにループを設計するにはどうすればよいですか? ありがとう！！！

python loops fastq

2011-06-26T23:25:55.757

0 投票する

1 に答える

1699 参照

bioinformatics - FASTQ シーケンスファイルを作成するにはどうすればよいですか?

単純な文字シーケンス ( など) を含むゲノムデータベースがあります>chr1 AGTGTCA.....。ここで、次のように標準のFASTQ 形式に変換したいと思います。

このタイプの形式について明確な考えがないため、変換できません。上記の例のように、単純な文字シーケンスを FASTQ 形式に変換するにはどうすればよいですか?

具体的には、私は尋ねています：

エンコーディングを行う既存のコードはありますか?
そうでない場合、FASTQ で文字シーケンスをエンコードするにはどうすればよいですか? この形式は何を意味し、どのように作成できますか?

bioinformatics fastq

2011-07-10T01:14:37.047

0 投票する

4 に答える

25820 参照

list - bash：/ bin / ls：引数リストが長すぎます

以下のような多数のファイル（40,000ファイル）のリストを作成する必要があります。

私のコマンドは次のとおりです。ls ERR*_1_*.fastq |sed 's/\.fastq//g'|sort -n > masterlist ただし、エラーは次のとおりです。bash: /bin/ls: Argument list too long

しかし、私はこの問題を解決できますか？perl / pythonでこのようなリストを作成する他の方法はありますか？

どうも

list ls fastq

2011-08-11T17:16:55.497

0 投票する

4 に答える

25470 参照

python - set() よりも Python でのメンバーシップテストの高速化

10 ～ 100k の要素を含むリストで、何百万もの要素 (20 ～ 30 文字の文字列) の存在を確認する必要があります。Pythonでそれを行うより速い方法はありset()ますか?

python performance set fastq

2011-08-18T15:47:50.093

0 投票する

3 に答える

786 参照

bash - スクリプト内の出力としてエコーを保存

以下は私のコードのほんの一部です：

このifループは出力を「エコー」します。ただし、エコー出力を何らかのファイルに保存したいと考えています。そして、この WITHIN スクリプトを管理したいと思います。私はおそらくsthを意味します。お気に入り：

しかし、明らかにこれは機能しません。スクリプト内でエコー出力を保存する正しい方法を求めています。

どうも

bash echo fastq

2011-11-28T18:31:59.690

0 投票する

1 に答える

631 参照

design-patterns - 文字列内でパターンがすべて出現する位置を見つける

私は DNA シーケンスファイル (FASTQ ファイル) に取り組んでいます。

@Read1-良い

@Read2- 2 つの悪い場所があります。

@Read3 : 1 つ良い、1 つ早い

@Read4 : 1 つ良い、1 つ後

シーケンス (@ で始まる行の下の行) 内で 6 文字の長さのパターン (GAACG) を探したい。

重要なことは、パターンが文字列内の 42 の位置にあることです。

その位置にパターンが見つかった場合は、シーケンスをその前の行とその次の 2 行と共に新しいファイルにコピーします。awk でこれを試すと、すべての index()、match() 関数は最初のオカレンスのみを調べ、それ以上は調べないため、機能しませんでした。そのため、位置 41 の前にパターンが見つかった場合、データはコピーされません。新しいファイル。

基本的に、私のスクリプトは読み取り 1、3、および 4 を返す必要があります...

FASTQ ファイルのパターンをスクリーニングし、パターンが見つかったすべての位置を評価し、パターンが他の位置にも存在するかどうかに関係なく、位置 42 にある配列のみを考慮するにはどうすればよいですか?

design-patterns full-text-search fastq

2012-04-17T20:18:09.217

0 投票する

1 に答える

708 参照

performance - fastq の解析速度を向上させる

同じコードの @solved C# は 2 倍高速です

perl で phred33 fastq ファイルを解析していますが、かなりの時間がかかります (15 分程度)。fastq ファイルは約 3 GB です。これを高速化する合理的な方法はありますか?

performance perl parsing fastq

user1158903

2012-04-24T20:53:55.120

0 投票する

4 に答える

3018 参照

bioinformatics - bam/sam ファイルでイルミナの読み取りをトリムする

fastq 形式の読み取りをトリミングするためのツールはたくさん見つかりましたが、既に整列された読み取りをトリミングするために利用できるツールはありますか?

bioinformatics fastq

2012-04-30T14:38:47.843

問題タブ [fastq]

Reference