目的:ファイル 1 の変異位置をファイル 2 の領域または機能にマッピングする。このためには、ファイル 1 の染色体の位置をファイル 2 の領域と比較する前に、染色体 (chr1) とストランド (+/-) が同じであることを確認する必要があります。
質問: mapreduce または Disco を使用して、ある場所を地域にマッピングする方法.. 別名 mapreduce メソッドで位置 -> 染色体領域を定式化しますか?
説明: 2 つの中サイズのファイル (10 GB) と、処理したい 2 つのファイル タイプがあります。これらのファイルは基本的な python で既に解析されていますが、将来的には多くの大きな同様のファイルを解析する必要がある可能性が高いため、mapreduce (より具体的には hadoop/Pig) または Disco で試して学習したいと考えていました。
EC2 クラスターでノードを実行することはできますが、理想的には 1 つのクラスター Hadoop (はい、それが目的に反することはわかっています)、または Disco や Sparc などで実行できます。
Pig を使用するというアイデアは気に入っています。プロセスを .csv ファイルからファイルを処理するだけに減らすことができるからです。
ファイル情報:
最初のファイルは TCGA 癌 SNP 変異です。いくつかの重要な機能は次のとおりです。
- 染色体の位置
- 染色体番号
- ストランド
- サンプルID
- 残りはそれほど重要ではありません
3' UTR シーケンス。
- 染色体開始位置: int
- 染色体末端位置: int
- 染色体番号:chrX
- ストランド +/-
- 遺伝子ID
- 残りはそれほど重要ではありません
サンプル ファイルはこちら: 2 つのサンプル ファイル
最後に、これが重要な場合は、Python が私の選択言語です。