以下の行に沿ったデータフレームがあります。
Type Set
1 A Z
2 B Z
3 B X
4 C Y
データフレームと同じ長さ (レコード/行の数が等しい) の別の列をデータフレームに追加 (またはシリーズを生成) したいと考えてい'green'
ます。Set == 'Z'
'red'
Set
これを行う最善の方法は何ですか?
これを達成する別の方法は、
df['color'] = df.Set.map( lambda x: 'red' if x == 'Z' else 'green')
以下は、ここで計測されたアプローチよりも時間がかかりますが、複数の列の内容に基づいて追加の列を計算でき、追加の列に対して 3 つ以上の値を計算できます。
「セット」列のみを使用した簡単な例:
def set_color(row):
if row["Set"] == "Z":
return "red"
else:
return "green"
df = df.assign(color=df.apply(set_color, axis=1))
print(df)
Set Type color
0 Z A red
1 Z B red
2 X B green
3 Y C green
より多くの色とより多くの列を考慮した例:
def set_color(row):
if row["Set"] == "Z":
return "red"
elif row["Type"] == "C":
return "blue"
else:
return "green"
df = df.assign(color=df.apply(set_color, axis=1))
print(df)
Set Type color
0 Z A red
1 Z B red
2 X B green
3 Y C blue
plydataを使用してこの種のことを行うこともできます(ただし、これはassign
andを使用するよりもさらに遅いようapply
です)。
from plydata import define, if_else
シンプルif_else
:
df = define(df, color=if_else('Set=="Z"', '"red"', '"green"'))
print(df)
Set Type color
0 Z A red
1 Z B red
2 X B green
3 Y C green
入れ子if_else
:
df = define(df, color=if_else(
'Set=="Z"',
'"red"',
if_else('Type=="C"', '"green"', '"blue"')))
print(df)
Set Type color
0 Z A red
1 Z B red
2 X B blue
3 Y C green
df['color'] = 'green'
df['color'] = df['color'].where(df['Set']=='Z', other='red')
# Replace values where the condition is False
また
df['color'] = 'red'
df['color'] = df['color'].mask(df['Set']=='Z', other='green')
# Replace values where the condition is True
transform
または、ラムダ関数でメソッドを使用できます。
df['color'] = df['Set'].transform(lambda x: 'green' if x == 'Z' else 'red')
出力:
Type Set color
1 A Z green
2 B Z green
3 B X red
4 C Y red
@chai からのパフォーマンス比較:
import pandas as pd
import numpy as np
df = pd.DataFrame({'Type':list('ABBC')*1000000, 'Set':list('ZZXY')*1000000})
%timeit df['color1'] = 'red'; df['color1'].where(df['Set']=='Z','green')
%timeit df['color2'] = ['red' if x == 'Z' else 'green' for x in df['Set']]
%timeit df['color3'] = np.where(df['Set']=='Z', 'red', 'green')
%timeit df['color4'] = df.Set.map(lambda x: 'red' if x == 'Z' else 'green')
397 ms ± 101 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
976 ms ± 241 ms per loop
673 ms ± 139 ms per loop
796 ms ± 182 ms per loop
pyjanitorのcase_when関数はラッパーであり、複数の条件に対して連鎖可能で便利な形式を提供します。pd.Series.mask
単一の条件の場合:
df.case_when(
df.col1 == "Z", # condition
"green", # value if True
"red", # value if False
column_name = "color"
)
Type Set color
1 A Z green
2 B Z green
3 B X red
4 C Y red
複数の条件の場合:
df.case_when(
df.Set.eq('Z') & df.Type.eq('A'), 'yellow', # condition, result
df.Set.eq('Z') & df.Type.eq('B'), 'blue', # condition, result
df.Type.eq('B'), 'purple', # condition, result
'black', # default if none of the conditions evaluate to True
column_name = 'color'
)
Type Set color
1 A Z yellow
2 B Z blue
3 B X purple
4 C Y black
他の例はここにあります