Pandas を使用するコードの多くの場所に、いくつかの Python 関数 がありますprocess(row)
。その関数は で使用されDataFrame.iterrows()
、それぞれをrow
受け取り、いくつかの処理を行い、最終的に新しい に収集する値を返しますSeries
。
この使用パターンは、numpy / Pandas スタックのパフォーマンス上の利点のほとんどを回避していることに気付きました。
- この使用パターンを可能な限り効率的にするための最良の方法は何でしょうか?
- ほとんどのコードを書き直さずにそれを実行できるでしょうか?
この質問の別の側面: そのような関数はすべて、効率的な表現に変換できますか? numpy / scipy / Pandas スタックについて学ぶことはたくさんありますが、真に任意のロジックについては、上記のような遅い純粋な Python アーキテクチャを使用する必要がある場合があるようです。そうですか?