問題タブ [bam]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - タグを bioperl DB::SAM/BAM に追加
私は bam ファイルを持っており、それを操作するために bioperl (Bio::DB::Sam) を使用しています。このファイルのアラインメントにタグを追加する可能性はありますか?
私が使う
アラインされた読み取りをループします。今、私は次のようなものを探しています
さよなら
perl - Bio::DB::Sam - bam ファイルのすべての読み取りのマッピング数を取得する
トランスクリプト式を計算したいので、bam ファイル内のすべての読み取りのマッピング数を取得する必要があります。私の現在の手順は、Bio::DB::Sam を使用して、全体的なトランスクリプトに移動し、それにマッピングされた読み取りを取得することです。結果は、read_name をキー (10 文字)、number_of_mappings を値 (整数) としてハッシュに格納されます。
私が使用しているコードは次のとおりです。
私の質問: 読み取りごとのグローバル マッピングの数を直接取得でき、すべてのトランスクリプトを調べる必要がない他の可能性はありますか? $sam -> getNumberOfMappings($read_name); のような Bio::DB::Sam でサブが見つかりませんでした。
私は 5,000 万回を超える読み取りがマッピングされた bam ファイルを使用しているため、ハッシュには巨大なメモリ リソース (約 40 GB の場合もあります) が必要になります。より少ないメモリでデータを保存する他の可能性はありますか?
どうもありがとう!
database - Perl: 2 つの列を持つタブ ファイルのインデックスを作成する
最大 2 億行 (通常は約 2000 万行) と 2 つの列を持つ巨大なタブ区切りファイルがあります。最初の列には最大 40 文字の ASCII 単語が含まれ、2 番目の列には整数が含まれます。
次の手順を実行したいと思います。
- 最初の列で並べ替え
- 重複する行を削除して、すべての行を一意にします
- 最初の列の指定されたエントリのすべての行を読み取る
3 GB のメモリ制限があり (すべてのデータをハッシュに読み込むことはできません)、無制限のハード ディスク領域があり、単一のコアでスクリプトを実行したいと考えています。いくつかのスクリプトを並行して実行するつもりなので、ハード ディスクの読み取りおよび書き込み操作が高すぎないようにする必要があります。
ファイルのサイズを考慮して、(Perl で) 私のスクリプトの実装をどのように進める必要がありますか?
ファイルのサイズを考慮して、最初のステップにどのアルゴリズムをお勧めしますか?
ステップ 3 は、私が考える最も複雑な部分です。これをどのように処理すればよいですか?索引付けアルゴリズムに精通していません。問題に最適なものを提案していただけますか?使用できる Perl モジュールはありますか?
最初にファイルをバイナリ ファイルに変換することは理にかなっていますか (SAM を BAM に変換するなど)。はいの場合、そのようなファイルを変換および処理するための指示またはアルゴリズムはありますか?
bioinformatics - Picard SamToFastqは、読み取りを1つだけ抽出し、エラーをスローします
bamファイルからFastQファイルを抽出しようとしています。Picardは、このツールのドキュメントでbamまたはsamファイルのいずれかを受け入れると述べているように、SamToFastqを使用してこれを行うことができます。
しかし、実行すると、読み取りが1つだけ抽出され、終了します。これがエラーメッセージです。どんな助けでも大歓迎です。
r - R のサブセット SAM/BAM ファイル
たくさんの読み取りを含む BAM ファイルがあります。scanBam
fromで R にロードできますRsamtools
。
ただし、読み取りのサブセットのみが必要です。character
興味のあるqnamesを持つベクトルがあります。
scanBam
数千回の読み取りすべてのデータを含む 13 要素のリストである 1 要素のリストを返します。
qname
構造を維持してこのオブジェクトをサブセット化するにはどうすればよいですか? マニュアルやオンラインで何も見つけることができませんでした。
bioinformatics - htslib/samtools を使用して SAM/BAM 読み取りを変換する方法は?
htslib
SAM/BAM ファイルを読み取るためにライブラリを使用していますが、完全に機能します。アラインメントを新しい SAM/BAM ファイルに書き戻すこともできます。
たとえば、次のコードはアラインメントの DNA 配列を出力します。
質問: クエリ シーケンスを変更するにはどうすればよいですか? たとえば、最初の文字を「T」に変更しますか? bam_get_seq
読み取りのシーケンスを返しますが、bam_set_seq
関数はありませんか? 理想的には、次のようなものを探しています:
更新の方法がわかれば、その情報を新しい SAM/BAM ファイルに書き込む方法がわかります。
bash - Bashスクリプトが1ファイル後に停止する
ディレクトリ内のすべての .bam ファイルに対してバイオインフォマティクス コマンド ライン ツールを実行しようとしています。これは私が使用しているものです:
問題は、最初の bam ファイルを反復処理した後にループが停止することです。最終的には、これで 2000 個の .bam ファイルのセットを超えるようになり、それらすべてを手動で入力する必要はありません (30 時間以上かかります)。