問題タブ [genome]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ソートされていないデータを比較する高速アルゴリズム
入力された正確な順序(ゲノム配列)を維持する必要のあるデータがあり、パターンを見つけるために、それぞれ約18のメンバーからなる約10億のノードを検索したいと思います。
明らかに、この大規模なデータセットでは速度が問題になります。検索の基本は重複を見つけて分離することであるため、現在、個別のキーとして使用できるデータはありません。
比較的短時間でデータを調べてこれらのパターンと類似点を見つけることができるアルゴリズムを探しています。比較のために正規表現を計算できますが、より高速な検索を取得する方法がわかりません。 O(n)より。
どんな助けでもいただければ幸いです。
ありがとう
c++ - 59GBのfastqファイルの前半をスキップして後半を処理します:行ごとに読み取りますか、それともfgetposですか?
「.fastq」形式の2〜59GBのテキストファイルがあります。fastqファイルは、シーケンサーからのゲノミクス読み取りファイルです。4行ごとに新しい読み取りが行われますが、行のサイズは可変です。
ファイルサイズは約59GBで、約211Mの読み取りがあります。つまり、約211M * 4=844M行です。私が使用しているプログラム、Bowtieには、現在、次のオプションを実行する機能があります。
"--skip 105M --qupto 105M"
これは基本的に、「最初の105M読み取りをスキップし、次の105M読み取りまでのみ処理する」ことを意味します。このようにして、ファイルの処理を分割できます。問題は、スキップを実行する方法が非常に遅いことです。通常どおりに最初の105Mの読み取りを読み取るだけで、それらを処理しません。次に、指定された読み取り値に到達すると、比較を開始します。
C / C ++のfsetposのようなものを使用して、ファイルの中央(またはどこでも)に位置を設定できるかどうか疑問に思っています。おそらく、行の途中に配置され、そこから最初の完全読み取りは、必要な場所に到達するまで約422M行を読み取るのを待つのではなく、処理を開始します。誰かがそのような大きなファイルでfsetposを実行した経験があり、パフォーマンスが現在の実行方法よりも優れているかどうかを知っていますか?
ありがとう-ニック
mouse - CD、TSS、およびプロモーターを含むマウス GTF を知っている人はいますか?
プロモーター、cd、および tss に関するデータを含むカフスボタンで実行するマウス gtf を探しています。これまでのところ、遺伝子とアイソフォームに関するデータを含む gtf しか見つけることができませんでした。
ありがとう。
python - PythonでBED / Intervalファイルのすべての行に同じ変更を加える
Galaxy オンライン ツールを使用して作業しようとしている BED Interval ファイルがあります。現在、ファイルのすべての行は番号 (染色体番号を表す) で始まります。正しくアップロードするには、すべての行が「chr」で始まり、その後に番号が続く必要があります。たとえば、「2L」で始まる行は、「chr2L」で始まるように変更する必要があり、数字で始まる他のすべての行に対して同じことを行う必要があります (2L だけでなく、さまざまな数字があります)。他の列に影響を与えることなく、すべての行の先頭に「chr」を追加できれば素晴らしいと思っていましたが、それを行う方法がわかりません(Pythonにとって非常に新しい)助けてくださいアウト?
ありがとう。
workflow - ワークフローが適切に機能するようにゲノム配列を短縮するにはどうすればよいですか?
ドイツのハイデルベルク大学のモリッツです。
私の学士論文では、肝細胞癌患者による 20 個の大きな (25 ~ 30 GB) ゲノム ファイル (.txt.gz) があります。Ubuntu サーバーに Bpipe をインストールしましたが、いくつかのアプローチを試す必要があります。
含まれる手順は次のとおりです。
- hg19.fasta に対するアライメント (BWA (Transform sai and sam))
- 変換 (samtols)
- 重複除外
私が抱えている問題は、bpipe ワークフローを試すために、30 GB のシーケンス全体を取得して、最初から開始する必要があることです。それには多くの時間がかかります。だから私の質問は:
1 つのファイルを短縮するにはどうすればよいですか?
パイプラインのテストに使用できる短いシーケンスはどこにありますか?