“fastq”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

587 参照

r - RのvcountPatternからポジティブヒットのシーケンスを抽出する

small RNA シーケンスを実行し、結果の fastq ファイルを分析しようとしました。

まず、ShortRead パッケージを使用して fastq ファイルを R にインポートし、DNAstringSet に変換しました

特定のシーケンスの文字列を含むリードを探すために、Biostrings ライブラリの vcountPattern を使用しました。分析目的で変異とインデルを許可する必要があります。

ここからできることは、「TCTGCATTTAAGGCAAGTT」を含む読み取りの数を数えることです

戻ります

[1] 11500

したがって、「TCTGCATTTAAGGCAAGTT」を含む 11500 のシーケンスリードがあります。

しかし、これに加えて、fastq ファイルから 11500 の読み取りに対応する実際のシーケンスを抽出する必要があります。

どうすればこれを達成できますか？

これを行うと、「0」の束、「1」の少数、「2」のごくわずかが得られます。したがって、これは基本的に、各読み取りのヒット数に対応するベクトルだと思います。

この情報を使って配列情報を抽出しようとしたのですが、うまくいきませんでした。

どんな助けでも大歓迎です!!

2015-08-25T19:31:06.567

0 投票する

3 に答える

678 参照

awk - 2つのfastqファイルを比較しようとしています（ペアの読み取り）、別のファイルの行番号nを出力します

file1.fastq のパターン一致の位置 (行番号を考慮) が file2.fastq と比較されるように、2 つの fastq 読み取り (ペア読み取り) を比較しようとしています。file2.fastq の同じ位置または行番号にあるものを出力したい。私はawkを通してこれをやろうとしています。元。私のパターンマッチがファイル 1 の 200 行目にある場合、ファイル 2 の 200 行目にあるものを確認したいと思います。

awk pattern-matching fastq

2015-09-08T16:45:45.103

0 投票する

1 に答える

447 参照

biopython - FastqGeneralIterator の出力

FastqGeneralIterator を使用していますが、fastq ファイルの 1 行目から @ が削除され、3 行目の情報も削除されることがわかりました (3 行目全体が削除されます)。次の方法で 1 行目に @ を追加しました。

+ で始まり、その後に何もない 3 行目も追加したいと思います。例えば：

誰かが私を助けることができますか？

biopython fastq

2015-10-13T15:12:22.437

0 投票する

0 に答える

243 参照

bash - ディレクトリ内の fastq ファイルを連結する

ファイルアップローダー resumable.js があります。これは、ファイルを取得して 1 MB の「チャンク」に分割し、一度に 1 MB のファイルを送信します。したがって、アップロード後、数千、時には数百万の個々の fastq ファイルを含むディレクトリが作成されます。このコード行を使用して、これらすべての「チャンク」を連結してファイルの元の状態に戻すことができます..

コマンドラインでこのスクリプトを手動で実行せずに、ファイルを連結して元の状態に戻すにはどうすればよいですか? この問題を処理するために bash スクリプトをセットアップする必要がありますか? この問題を解決するためのアイデアは大歓迎です。

回答: この npm モジュールを使用した価値はありますが、うまく機能します。 https://www.npmjs.com/package/joiner

bash merge upload cron fastq

2015-10-28T17:41:18.650

0 投票する

5 に答える

425 参照

python - Python - 2 つの巨大なテキストファイル間の一致をチェックする

だから、これは私に苦労を与えてきました！
私は巨大なテキストファイルを扱っています.巨大とは100Gb以上を意味します. 具体的には、fastq 形式です。この形式は DNA 配列決定データに使用され、次のような 4 行のレコードで構成されます。

この質問のために、「@」で始まるヘッダー行に注目してください。

したがって、QA の目的で、このような 2 つのファイルを比較する必要があります。これらのファイルにはヘッダーが一致する必要があるため、他のファイルの最初のレコードにもヘッダー「@REC1」があり、次のレコードには「@REC2」というように続きます。重いダウンストリーム分析に進む前に、これが事実であることを確認したいと思います.
ファイルが非常に大きいため、単純な文字列比較の反復には非常に長い時間がかかりますが、この QA ステップは何度も実行されるため、それほど長く待つ余裕はありません。そのため、ファイル内のいくつかのポイントから、たとえばレコードの 10% ごとにレコードをサンプリングする方がよいと考えました。レコードの順序が乱れている場合は、それを検出する可能性が非常に高くなります。
これまでのところ、ファイルサイズを推定し、pythonのを使用するよりも、そのようなファイルを処理できましたfile.seek()ファイルの途中にあるレコードにアクセスします。たとえば、ほぼ中央の行にアクセスするには、次のようにします。

しかし、バイト位置はファイル内の行インデックスの指標ではないため、2 つのファイル間で調整する方法がわからないため、問題はより複雑になります。つまり、ファイル全体を調べずに、両方のファイルの 10,567,311 行目にアクセスして、それらが同じであることを確認するにはどうすればよいでしょうか?

アイデア\ヒントをいただければ幸いです。多分並行して繰り返しますか？しかし、どのように正確に？
ありがとう！

python python-2.7 parsing bigdata fastq

2015-11-18T07:50:28.363

0 投票する

1 に答える

1977 参照

python - BioPython: IOError: [Errno 2] そのようなファイルまたはディレクトリはありません

FASTQ (Illumina Miseq mate ペアのゲノム配列から生成された) ファイルを FASTA に変換し、最終的に注釈付き参照配列を使用してそれを Genbank に変換しようとしています。私はBiopythonチュートリアルの指示に従っています。これが私のコードとエラーです。

python biopython fasta fastq

2015-11-28T14:42:27.817

0 投票する

2 に答える

52 参照

list - Pythonでランダムな量のリストを組み合わせる方法

私は、FASTQファイルを読み込んで、このファイルのシーケンスあたりの N の量を与えるプログラムに取り組んでいます。1行あたりのNの数をなんとか取得し、これらをリストに入れました。問題は、ファイル内の N の合計数を合計するために 1 つのリスト内のすべての数字が必要ですが、それらは独自のリストに出力されることです。

これは私の出力、リストとリスト内の合計金額です。リストを手動で結合する方法を見てきましたが、何百ものシーケンスを持つことができるので、それはできません。

これは私がコードとして持っているもので、別の関数が行を選択します。

誰かがこれで私を助けてくれることを願っています。前もって感謝します。

list python-3.x subtotal fastq

2016-04-03T15:27:18.947

問題タブ [fastq]

Reference