5

私はいくつかのゲノム分析に足を踏み入れていて、少し立ち往生しています。非常にまばらなデータがいくつかあり、移動平均があるしきい値を超えている場所を見つけて、各ポイントを 1 または 0 としてマークする必要があります。データは一意のタイプであるため、使用可能なプログラムを分析に使用できません。

各ポイントは、ヒトゲノム上の 1 つのポイント (塩基対) を表します。各データセットには、200,000,000 の潜在的なポイントがあります。データは本質的に、他のすべてのポイントがゼロであると想定される、〜 12000 のインデックス/値のペアのリストです。私がする必要があるのは、データセット全体で移動平均を取り、平均がしきい値を超えている領域を返すことです。

現在、データセットから各ポイントを順番に読み取り、見つけた各ポイントの周りに配列を作成していますが、これは大きなウィンドウ サイズでは非常に遅くなります。おそらくscipyまたはpandasを使用して、これを行うより効率的な方法はありますか?

編集: 以下の Jamie のマジック コードはうまく機能します (ただし、まだ賛成できません)。私は非常に感謝しています。

4

1 に答える 1