python - シリーズ/データフレーム列のパンダ条件付き作成

Question

以下の行に沿ったデータフレームがあります。

    Type       Set
1    A          Z
2    B          Z           
3    B          X
4    C          Y

データフレームと同じ長さ (レコード/行の数が等しい) の別の列をデータフレームに追加 (またはシリーズを生成) したいと考えてい'green'ます。Set == 'Z''red'Set

これを行う最善の方法は何ですか？

score 27 · Accepted Answer

これを達成する別の方法は、

df['color'] = df.Set.map( lambda x: 'red' if x == 'Z' else 'green')

score 25 · Accepted Answer

以下は、ここで計測されたアプローチよりも時間がかかりますが、複数の列の内容に基づいて追加の列を計算でき、追加の列に対して 3 つ以上の値を計算できます。

「セット」列のみを使用した簡単な例:

def set_color(row):
    if row["Set"] == "Z":
        return "red"
    else:
        return "green"

df = df.assign(color=df.apply(set_color, axis=1))

print(df)

  Set Type  color
0   Z    A    red
1   Z    B    red
2   X    B  green
3   Y    C  green

より多くの色とより多くの列を考慮した例:

def set_color(row):
    if row["Set"] == "Z":
        return "red"
    elif row["Type"] == "C":
        return "blue"
    else:
        return "green"

df = df.assign(color=df.apply(set_color, axis=1))

print(df)

  Set Type  color
0   Z    A    red
1   Z    B    red
2   X    B  green
3   Y    C   blue

編集 (21/06/2019): plydata の使用

plydataを使用してこの種のことを行うこともできます(ただし、これはassignandを使用するよりもさらに遅いようapplyです)。

from plydata import define, if_else

シンプルif_else:

df = define(df, color=if_else('Set=="Z"', '"red"', '"green"'))

print(df)

  Set Type  color
0   Z    A    red
1   Z    B    red
2   X    B  green
3   Y    C  green

入れ子if_else:

df = define(df, color=if_else(
    'Set=="Z"',
    '"red"',
    if_else('Type=="C"', '"green"', '"blue"')))

print(df)

  Set Type  color
0   Z    A    red
1   Z    B    red
2   X    B   blue
3   Y    C  green

score 3 · Accepted Answer

パンダのメソッドwhereとmask次を使用できます。

df['color'] = 'green'
df['color'] = df['color'].where(df['Set']=='Z', other='red')
# Replace values where the condition is False

また

df['color'] = 'red'
df['color'] = df['color'].mask(df['Set']=='Z', other='green')
# Replace values where the condition is True

transformまたは、ラムダ関数でメソッドを使用できます。

df['color'] = df['Set'].transform(lambda x: 'green' if x == 'Z' else 'red')

出力：

  Type Set  color
1    A   Z  green
2    B   Z  green
3    B   X    red
4    C   Y    red

@chai からのパフォーマンス比較:

import pandas as pd
import numpy as np
df = pd.DataFrame({'Type':list('ABBC')*1000000, 'Set':list('ZZXY')*1000000})
 
%timeit df['color1'] = 'red'; df['color1'].where(df['Set']=='Z','green')
%timeit df['color2'] = ['red' if x == 'Z' else 'green' for x in df['Set']]
%timeit df['color3'] = np.where(df['Set']=='Z', 'red', 'green')
%timeit df['color4'] = df.Set.map(lambda x: 'red' if x == 'Z' else 'green')

397 ms ± 101 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
976 ms ± 241 ms per loop
673 ms ± 139 ms per loop
796 ms ± 182 ms per loop

score 0 · Accepted Answer

pyjanitorのcase_when関数はラッパーであり、複数の条件に対して連鎖可能で便利な形式を提供します。pd.Series.mask

単一の条件の場合:

df.case_when(
    df.col1 == "Z",  # condition
    "green",         # value if True
    "red",           # value if False
    column_name = "color"
    )

  Type Set  color
1    A   Z  green
2    B   Z  green
3    B   X    red
4    C   Y    red

複数の条件の場合:

df.case_when(
    df.Set.eq('Z') & df.Type.eq('A'), 'yellow', # condition, result
    df.Set.eq('Z') & df.Type.eq('B'), 'blue',   # condition, result
    df.Type.eq('B'), 'purple',                  # condition, result
    'black',              # default if none of the conditions evaluate to True
    column_name = 'color'  
)
  Type  Set   color
1    A   Z  yellow
2    B   Z    blue
3    B   X  purple
4    C   Y   black

他の例はここにあります

python - シリーズ/データフレーム列のパンダ条件付き作成

12 に答える 12

編集 (21/06/2019): plydata の使用

Related

Reference