python - パンダを使用してデータフレームに特定の ID を持つレコードを 1 つだけ保持する

Question

pandas2 つの CSV ファイルを、ProjectID という列でインデックス付けされた 1 つのファイルに結合するために使用しています。これが完了すると、まだ多数の重複レコードがあります。私はこれらの最新のものだけを保持したいです（それらは日付が古いものから新しいものの順に並んでいます）。私がこれまでに持っているコードは次のとおりです。

merged_df = pandas.merge(df1, df2, on="ProjectID", how="left")

私が少し問題を抱えているのは、プロジェクトの複数のバージョンがある最後の行だけを保持する方法です。pandasこれに役立つものが組み込まれていますか?

サンプルデータを追加するために編集

現在のデータ

ProjectID    Value    Date
1            54       9/21/2010
2            32       10/22/2010
2            32       10/28/2010
3            76       9/21/2010
4            37       9/21/2010
4            37       11/12/2010
4            38       11/14/2010

欲しいデータ

ProjectID    Value    Date
1            54       9/21/2010
2            32       10/28/2010
3            76       9/21/2010
4            38       11/14/2010

score 1 · Accepted Answer

drop_duplicatesデータフレームから重複を削除するためのパンダの go to 関数です。デフォルトでは、最初に観察された重複値を保持しますが、take_last=代わりに引数を使用して最後の値を保持できます。

試す：merged_df2 = merged_df.drop_duplicates('ProjectID', take_last=True)

python - パンダを使用してデータフレームに特定の ID を持つレコードを 1 つだけ保持する

1 に答える 1

Related

Reference