問題タブ [fastq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
155 参照

perl - メイトペアの長さに基づく FASTQ ファイルの処理

次のファイルは、ペアエンドの fastq ファイルの 2 つのメイトです。各 fastq を長さに基づいて分けたいと思います。

mate1.fq:

mate2.fq:

これを行うために次のコードを書きましたが、2 番目のファイル ( mate2.fq) でのみ奇妙なエラーが発生しますが、どちらも 151 bp の読み取りがあります。

エラー:

Can't use string ("151") as a symbol ref while "strict refs" in use at

これらのファイルを処理するにはどうすればよいですか?

0 投票する
1 に答える
72 参照

python - fastqファイルを読み取るときのunicodeエラー - python 3.4.2

fastq ファイルを読み取ろうとしていますが、次のエラーが発生し続けます。

(Unicode エラー) 'unicodeescape' コーデックは位置 18 -19 のバイトをデコードできません: 切り捨てられた \UXXXXXXXX エスケープ

次のコードを使用しました。

この問題を解決するにはどうすればよいか、アドバイスをいただけないでしょうか?

ありがとう

0 投票する
3 に答える
91 参照

bash - シーケンシング Fastq ファイルからめったに発生しない行を削除する

実験データを 4 行のグループにまとめたテキスト ファイルがあります。まれなデータポイントを削除したいと思います。以下は最初の 8 行のファイル形式で、これが何千行も繰り返されます (行番号はファイルに存在しません)。

したがって、行 1 ~ 4 にはシーケンス 1 の情報が含まれ、行 5 ~ 8 にはシーケンス 2 の情報が含まれ、9 ~ 12 行にはシーケンス 3 の情報が含まれます。特定の状況では、完全に一意であるか、3 回未満しか検出されていないシーケンスを含む 4 行のグループを削除するのが一般的です。

私がやりたいのは、2行目を6、10、14、18行と比較することです...そしてそれが3回以上見つかった場合は何もしません。見つかった回数が 3 回以下の場合は、行 1 ~ 4 と、一致するシーケンスを含む 4 行の各グループを削除します。次に、ファイル内の 1 行おきに同じ比較を実行します。

したがって、上記のファイルのシーケンス 1 とシーケンス 3 が一致し、そのシーケンスが 3 回未満しか繰り返されていないため、4 行の各グループを削除すると、結果のファイルは次のようになります。

これが私が始めたものです:

ただし、見つかった回数が 3 回未満のすべての行が削除されるわけではありません。助けていただければ幸いです。ありがとう。

要求された実際のテスト可能な例を次に示します。 入力:

AAGC回数が発生しますが、>= 3回数がAACT発生するため<3、出力は次のようになります。

うまくいけば、それが明確にするのに役立ちます。

0 投票する
2 に答える
152 参照

python - Python を使用して、入力 fastq ファイルからの文字列の違いを比較する

シーケンス Fastq ファイルを編集し、特定の文字位置でのみ繰り返される行を削除したいと考えています。理想的には、入力ファイルのすべての行を繰り返し処理し、一意の文字セットのインスタンスが 1 つしかないファイルを出力します。

以下に示すように。すべての行の最初の 6 文字、最後の 6 文字、および間にある文字の一部だけに注目し、3 つのシーケンスの一意の組み合わせのインスタンスを 1 つだけ保持します。

上記の例に示すように、4 行のみを含むファイルを取得し、文字 1 ~ 6、19 ~ 28、37 ~ 42 を見ている場合、2 行目と 3 行目は削除されるか、出力ファイルに出力されません。目的の各位置に同じ文字があるためですが、4 行目は異なるため削除されません。

私はこの次のコードから始めました。私の考えは、各位置を変数に設定し (ただし、介在するシーケンスを取得する必要があるかどうかはわかりません)、入力ファイルを反復処理するときに各行と比較することです。

それが役立つ場合、これらのファイルも 5 ~ 10 GB であるため、小さくはありません。助けていただければ幸いです。ありがとう。

0 投票する
1 に答える
449 参照

python - ディレクトリ全体で Biopython SeqIO.convert を使用する

Windows で Biopython スクリプトを使用して fastq から fasta に変換したいメタゲノム シーケンス データを含む 51 個のファイルがあります。モジュール SeqIO.convert は、個別に指定されたファイルを簡単に変換しますが、ディレクトリ全体を変換する方法がわかりません。個別に行うのはそれほど多くのファイルではありませんが、私は学ぼうとしています。

私はBiopythonを初めて使用するので、私の無知を許してください。この会話は役に立ちましたが、まだディレクトリを fastq から fasta に変換できません。

実行しようとしているコードは次のとおりです。

0 投票する
1 に答える
423 参照

bioinformatics - fastq ファイルをソートし、配列の長さを 15 ~ 17 bp に保つ

cutadapt を使用してトランスポゾンの末端配列を切り取る非常に大きな fastq ファイルがいくつかあります。これにより、15 ~ 17 塩基対のゲノム DNA が残るはずです。cutadapt を使用した後、fastq ファイルの大部分は 15 ~ 17 塩基対ですが、一部の配列はかなり長くなります (それらにはトランスポゾン末端配列がなく、私の実験ではガベージ リードであることを示しています)。

私の質問: これらの fastq ファイルを並べ替えて、通常の fastq 形式を保持しながら、15 ~ 17 塩基対の長さの読み取りのみを含む新しい fastq を出力するために、Linux で使用できるコマンドまたはスクリプトはありますか?

参考までに、fastq 形式は次のようになります。

ここで同様の質問を見つけましたが、正しい解決策が見つからなかったようです。誰にも解決策はありますか?