問題タブ [fastq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 大きなテキスト ファイルを解析するためのインデックスを作成する方法
FASTQ 形式の 2 つのファイル A と B があります。これらは基本的に、次のように @ で始まる 4 行のグループに編成された数億行のテキストです。
私は比較する必要があります
ファイル A と B の間を分割し、新しいファイルに一致するファイル B に 4 行のグループを書き込みます。それを行うPythonのコードを取得しましたが、ファイルAのすべての@行に対してファイルBの@行全体を解析し、両方のファイルに数億行が含まれているため、小さなファイルに対してのみ機能します。
ファイル B のインデックスを作成する必要があると誰かが提案しました。私は成功せずにグーグルで検索しましたが、誰かがこれを行う方法を指摘したり、チュートリアルを教えてくれたりして、学ぶことができれば非常に感謝しています. ありがとう。
==編集== 理論的には、4 行の各グループは各ファイルに 1 回だけ存在する必要があります。各試合の後に解析を中断すると、速度が十分に向上しますか、それともまったく別のアルゴリズムが必要ですか?
c - glib コマンドラインの解析は順序に依存しますか?
glib のコマンド ライン オプションの解析順序は重要ですか? 以下のコードでは、配列の--foo
前にオプションを定義しています。解析は両方を true に設定しますが、withのみを true に設定します。* nix afaikでは順序付けられていないオプションが標準であるため、順序を無視するにはどうすればよいですか。--bar
GOptionEntry
--foo --bar
--bar --foo
foo
結果:
bash - 異なる出力ファイルを取得する
私はこれらのファイルでテストを行っています:
最初の _ (アンダースコア) まで同じコードを持ち、別の出力ファイルにコード R1 を持つファイルを取得したいと考えています。出力ファイルは、最初の _ (アンダースコア) までのコードに従って呼び出す必要があります。
-これは私のコードですが、出力ファイルの作成に問題があります。
-2 つの出力が必要です。
1 つの出力には、次のすべての行が含まれます。
その名前はcomp900_R1.out
他の出力には、次の行があります。
その名前はcomp995_R1.out
最後に、私が言ったように、これは小さなテストです。同じ特性を持つ多数のファイルでスクリプトを動作させたいと考えています。
bash - fastq ファイルのトリム シーケンスと品質
ディレクトリに大量のfastqファイルがあり、シーケンスを2ヌクレオチドと品質でトリミングしたい(読み取りに51塩基対があり、CTGまたはTTGで終わる場合)。
これは私がシェルスクリプトとして書いたものですが、いくつかのエラーが発生しています。シェルスクリプトを初めて使用するため、助けが必要です
入力:
出力:
脚本:
python - fastq ファイルを辞書に読み込む
次のような fastq ファイルがあります (ファイルの一部):
FASTQ ファイルは、シーケンスごとに 4 行を使用します。行 1 は「@」文字で始まり、シーケンス ID が続きます。行 2 は DNA 配列文字です。3 行目は「+」文字で始まります。4 行目は、2 行目のシーケンスの品質値をエンコードします (「+」の後と次の「@」の前の部分で、シーケンス内の文字と同じ数の記号が含まれている必要があります。
次のように fastq ファイルを辞書に読み込みたい (キーは DNA シーケンスで、値は品質値で、"@" と "+" で始まる行は破棄できます):
次のコードを書きますが、必要なものが得られません。コードの修正/改善を手伝ってくれる人はいますか?
awk - sedまたはawkで変数を使用しようとしています
まったく同じ形式の 2 つの別個のテキスト ファイルがあります。FILE1.txt
特定の検索用語をgrepして、すべての一致の行番号を出力できます。行番号は番号順にファイルまたは変数に出力されます。
各行番号を使用して、その行を番号FILE2.txt
順に印刷したいOUTPUT.txt
. 誰かがこれを使用して、awk
またはsed
これを行う方法を知っていますか?
値が 25 26 27 28 の文字列変数 $linenumbers があります。
次のコマンドを使用します。
$linenumbers の i の場合。do sed -n "/$I/p" $i test_read2.fastq >> test.fastq; 終わり。
エラーが発生します
sed: 読み取れません 25: そのようなファイルまたはディレクトリはありません
sed: 読み取れません 26: そのようなファイルまたはディレクトリはありません
sed: 読み取れません 27: そのようなファイルまたはディレクトリはありません
sed: 読み取れません 28: そのようなファイルまたはディレクトリはありません
この sed コマンドを 1 つずつ実行すると、ファイルから行番号 25、26、27、および 28 を取得し、次のコマンドを使用してファイルに出力できます。
sed -n "25p" test_read2.fastq >> test.fastq
「25p」を変数に置き換えたいので、これを1つずつ行わずにファイルから複数の行(25,26,27,28)を引き出します...
makefile - 冗長ファイルを消去する
さて、私はメイクファイルの助けを借りて私のためにいくつかのデータを実行するパイプラインを持っています. このパイプラインは、クリーンアップしたい膨大な量の冗長ファイルを作成します。
パイプラインを実行するためのメイクファイルが 1 つあります。そしてパイプライン自体は、他の多くのメイクファイルに接続されています。そこで、このコードをパイプラインの chipcap.mk ファイルに追加しました。
今、私はこのようにファイルを実行します。make -f run_samples.mk
このスクリプトはパイプラインを呼び出し、すべてのサンプルの実行を個別に開始します。run_samples.mk がパイプラインに与えるコマンドは次のとおりです。
run_samples.mk に対して、(chipcap.mk にある) cleanintermediate も実行する必要があると言うにはどうすればよいでしょうか。私は多くのことを困惑させてきましたが、それを行う正しい方法を見つけることができません。
python - Tuple コードの確認
だから私は FastQ シーケンスをパースしようとしていますが、私は Python の初心者であり、コードを完成させる方法について少し混乱しています。これは、プログラムが実行することになっているものです。
FASTQ seqname 行を入力すると...
...その後、プログラムは次のように出力します。
これが私の(不完全な)コードです:
python - FastQ プログラミング エラー
だから私は FastQ シーケンスを解析しようとしていますが、私は Python の初心者であり、コードが機能しない理由について少し混乱しています。これは、プログラムが実行することになっているものです。
FASTQ seqname 行を入力すると...
...その後、プログラムは次のように出力する必要があります。
これまでの未完成のコードは次のとおりです。