問題タブ [fastq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
shell - SED/AWK を使用して FASTQ を FASTA に変換する
次の形式 (FASTQ と呼ばれる) の 4 つのブロックで常に来るデータがあります。
それらをこの形式(FASTAと呼ばれる)に変換する簡単なsed / awk / bashの方法はありますか:
原則として、各ブロック 4 の最初の 2 行を抽出し@
、>
.
r - RでFASTQ ASCIIを10進数と16進数に変換する
一連の ASCII 文字として表示される FASTQ 品質スコアがあります。この場合、(おそらく) ASCII 文字 64 から 126 は 0 から 62 のスコアを表します (イルミナであると仮定します)。これにより、基になるシーケンスが発生します。
feffefdfbefdfffcfdeTddaYddffbfcI`S_KKX_]]MR[D_TY[VTVXQ]`Q_BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB
ASCII文字の数を抽出するにはどうすればよいですか?
ありがとうサン
編集: このシーケンスは、塩基 (文字 (ATGC) を意味する核酸の塩基対から) で構成される生物学的シーケンスの品質を示します。基本品質は、-10 log10 Pr{base is wrong} に等しい phred スケールの基本エラー確率です。
python - python ループについて
私には2つのパスがあります
path1 には、一連の fastq ファイルがあります。
path2 には、path1 の fastq ファイルに対応する多くの .txt があります。
これで、path1 の fastq ファイルから fastq_seq_num を計算するスクリプトを作成しました。以下を参照してください。
また、path2 の .txt ファイルから num_seq_processed_sai を計算します。以下を参照してください。
さて、私の問題は次のとおりです。パス1の最初のfastqファイルのfastq_seq_numを計算するループを作成したいです。次に、path2 の FIRST txt ファイルの num_seq_processed を計算します。次に、この 2 つの数値を比較します。その後、ループを終了します。次に、2 番目のループが開始されます...これを実現するためにループを設計するにはどうすればよいですか? ありがとう!!!
bioinformatics - FASTQ シーケンス ファイルを作成するにはどうすればよいですか?
単純な文字シーケンス ( など) を含むゲノム データベースがあります>chr1 AGTGTCA.....
。ここで、次のように標準のFASTQ 形式に変換したいと思います。
このタイプの形式について明確な考えがないため、変換できません。上記の例のように、単純な文字シーケンスを FASTQ 形式に変換するにはどうすればよいですか?
具体的には、私は尋ねています:
- エンコーディングを行う既存のコードはありますか?
- そうでない場合、FASTQ で文字シーケンスをエンコードするにはどうすればよいですか? この形式は何を意味し、どのように作成できますか?
list - bash:/ bin / ls:引数リストが長すぎます
以下のような多数のファイル(40,000ファイル)のリストを作成する必要があります。
私のコマンドは次のとおりです。ls ERR*_1_*.fastq |sed 's/\.fastq//g'|sort -n > masterlist
ただし、エラーは次のとおりです。bash: /bin/ls: Argument list too long
しかし、私はこの問題を解決できますか?perl / pythonでこのようなリストを作成する他の方法はありますか?
どうも
python - set() よりも Python でのメンバーシップ テストの高速化
10 ~ 100k の要素を含むリストで、何百万もの要素 (20 ~ 30 文字の文字列) の存在を確認する必要があります。Pythonでそれを行うより速い方法はありset()
ますか?
bash - スクリプト内の出力としてエコーを保存
以下は私のコードのほんの一部です:
このifループは出力を「エコー」します。ただし、エコー出力を何らかのファイルに保存したいと考えています。そして、この WITHIN スクリプトを管理したいと思います。私はおそらくsthを意味します。お気に入り:
しかし、明らかにこれは機能しません。スクリプト内でエコー出力を保存する正しい方法を求めています。
どうも
design-patterns - 文字列内でパターンがすべて出現する位置を見つける
私は DNA シーケンス ファイル (FASTQ ファイル) に取り組んでいます。
@Read1-良い
@Read2- 2 つの悪い場所があります。
@Read3 : 1 つ良い、1 つ早い
@Read4 : 1 つ良い、1 つ後
シーケンス (@ で始まる行の下の行) 内で 6 文字の長さのパターン (GAACG) を探したい。
重要なことは、パターンが文字列内の 42 の位置にあることです。
その位置にパターンが見つかった場合は、シーケンスをその前の行とその次の 2 行と共に新しいファイルにコピーします。awk でこれを試すと、すべての index()、match() 関数は最初のオカレンスのみを調べ、それ以上は調べないため、機能しませんでした。そのため、位置 41 の前にパターンが見つかった場合、データはコピーされません。新しいファイル。
基本的に、私のスクリプトは読み取り 1、3、および 4 を返す必要があります...
FASTQ ファイルのパターンをスクリーニングし、パターンが見つかったすべての位置を評価し、パターンが他の位置にも存在するかどうかに関係なく、位置 42 にある配列のみを考慮するにはどうすればよいですか?
performance - fastq の解析速度を向上させる
同じコードの @solved C# は 2 倍高速です
perl で phred33 fastq ファイルを解析していますが、かなりの時間がかかります (15 分程度)。fastq ファイルは約 3 GB です。これを高速化する合理的な方法はありますか?
bioinformatics - bam/sam ファイルでイルミナの読み取りをトリムする
fastq 形式の読み取りをトリミングするためのツールはたくさん見つかりましたが、既に整列された読み取りをトリミングするために利用できるツールはありますか?