私の意見では、一番上の答えには欠陥があります。うまくいけば、すべてのパンダを。を使用して名前空間に大量にインポートしている人は誰もいませんfrom pandas import *
。また、このmap
メソッドは、辞書またはシリーズを渡すときに使用するために予約する必要があります。関数を取ることができますが、これがapply
使用されます。
したがって、上記のアプローチを使用する必要がある場合は、次のように記述します
df["A1"], df["A2"] = zip(*df["a"].apply(calculate))
ここでzipを使用する理由は実際にはありません。あなたは単にこれを行うことができます:
df["A1"], df["A2"] = calculate(df['a'])
この2番目の方法は、より大きなDataFrameでもはるかに高速です。
df = pd.DataFrame({'a': [1,2,3] * 100000, 'b': [2,3,4] * 100000})
300,000行で作成されたDataFrame
%timeit df["A1"], df["A2"] = calculate(df['a'])
2.65 ms ± 92.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit df["A1"], df["A2"] = zip(*df["a"].apply(calculate))
159 ms ± 5.24 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
zipより60倍高速
一般的に、applyの使用は避けてください
通常、適用はPythonリストを反復処理するよりもはるかに高速ではありません。上記と同じことを行うために、forループのパフォーマンスをテストしてみましょう
%%timeit
A1, A2 = [], []
for val in df['a']:
A1.append(val**2)
A2.append(val**3)
df['A1'] = A1
df['A2'] = A2
298 ms ± 7.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
したがって、これは2倍遅く、ひどいパフォーマンスの低下ではありませんが、上記をシトニゼーションすると、はるかに優れたパフォーマンスが得られます。仮定すると、ipythonを使用しています。
%load_ext cython
%%cython
cpdef power(vals):
A1, A2 = [], []
cdef double val
for val in vals:
A1.append(val**2)
A2.append(val**3)
return A1, A2
%timeit df['A1'], df['A2'] = power(df['a'])
72.7 ms ± 2.16 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
適用せずに直接割り当てる
直接ベクトル化された演算を使用すると、速度がさらに向上します。
%timeit df['A1'], df['A2'] = df['a'] ** 2, df['a'] ** 3
5.13 ms ± 320 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
これは、ループの代わりにNumPyの非常に高速なベクトル化された操作を利用します。現在、オリジナルの30倍のスピードアップがあります。
最も簡単な速度テストapply
上記の例は、どれほど遅くなるapply
可能性があるかを明確に示しているはずですが、その非常に明確な例として、最も基本的な例を見てみましょう。適用の有無にかかわらず、一連の1,000万の数値を二乗しましょう
s = pd.Series(np.random.rand(10000000))
%timeit s.apply(calc)
3.3 s ± 57.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
適用しない場合は50倍高速です
%timeit s ** 2
66 ms ± 2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)