python - Pythonでスパースデータの移動平均を効率的に取り、しきい値を超えてフィルター処理する

翻译自：https://stackoverflow.com/questions/16330689 2013-05-02T05:07:01.890

1377 次

私はいくつかのゲノム分析に足を踏み入れていて、少し立ち往生しています。非常にまばらなデータがいくつかあり、移動平均があるしきい値を超えている場所を見つけて、各ポイントを 1 または 0 としてマークする必要があります。データは一意のタイプであるため、使用可能なプログラムを分析に使用できません。

各ポイントは、ヒトゲノム上の 1 つのポイント (塩基対) を表します。各データセットには、200,000,000 の潜在的なポイントがあります。データは本質的に、他のすべてのポイントがゼロであると想定される、〜 12000 のインデックス/値のペアのリストです。私がする必要があるのは、データセット全体で移動平均を取り、平均がしきい値を超えている領域を返すことです。

現在、データセットから各ポイントを順番に読み取り、見つけた各ポイントの周りに配列を作成していますが、これは大きなウィンドウサイズでは非常に遅くなります。おそらくscipyまたはpandasを使用して、これを行うより効率的な方法はありますか?

編集: 以下の Jamie のマジックコードはうまく機能します (ただし、まだ賛成できません)。私は非常に感謝しています。

python - Pythonでスパースデータの移動平均を効率的に取り、しきい値を超えてフィルター処理する

1 に答える 1

Related

Reference