パンダの特定の列インデックスに列を挿入できますか?
import pandas as pd
df = pd.DataFrame({'l':['a','b','c','d'], 'v':[1,2,1,2]})
df['n'] = 0
これは columnn
を の最後の列として配置しますが、最初に配置df
するように指示する方法はありませんか?df
n
ドキュメントを参照してください: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.insert.html
loc = 0 を使用すると、先頭に挿入されます
df.insert(loc, column, value)
df = pd.DataFrame({'B': [1, 2, 3], 'C': [4, 5, 6]})
df
Out:
B C
0 1 4
1 2 5
2 3 6
idx = 0
new_col = [7, 8, 9] # can be a list, a Series, an array or a scalar
df.insert(loc=idx, column='A', value=new_col)
df
Out:
A B C
0 7 1 4
1 8 2 5
2 9 3 6
列をリストとして抽出し、必要に応じてこれをマッサージし、データフレームの再インデックスを試みることができます。
>>> cols = df.columns.tolist()
>>> cols = [cols[-1]]+cols[:-1] # or whatever change you need
>>> df.reindex(columns=cols)
n l v
0 0 a 1
1 0 b 2
2 0 c 1
3 0 d 2
編集: これは 1 行で実行できます。ただし、これは少し醜く見えます。ひょっとしたら、よりクリーンな提案が来るかもしれません...
>>> df.reindex(columns=['n']+df.columns[:-1].tolist())
n l v
0 0 a 1
1 0 b 2
2 0 c 1
3 0 d 2
df.insert(loc, column_name, value)
これは、同じ名前の列が他にない場合に機能します。指定した名前の列がデータフレームに既に存在する場合、ValueError が発生します。
オプションのパラメータallow_duplicates
にTrue
値を渡して、既存の列名で新しい列を作成できます。
次に例を示します。
>>> df = pd.DataFrame({'b': [1, 2], 'c': [3,4]})
>>> df
b c
0 1 3
1 2 4
>>> df.insert(0, 'a', -1)
>>> df
a b c
0 -1 1 3
1 -1 2 4
>>> df.insert(0, 'a', -2)
Traceback (most recent call last):
File "", line 1, in
File "C:\Python39\lib\site-packages\pandas\core\frame.py", line 3760, in insert
self._mgr.insert(loc, column, value, allow_duplicates=allow_duplicates)
File "C:\Python39\lib\site-packages\pandas\core\internals\managers.py", line 1191, in insert
raise ValueError(f"cannot insert {item}, already exists")
ValueError: cannot insert a, already exists
>>> df.insert(0, 'a', -2, allow_duplicates = True)
>>> df
a a b c
0 -2 -1 1 3
1 -2 -1 2 4