私が抱えている問題は、さまざまな条件下で特定の値を表す各サブジェクトの複数の行を持つ大きなデータフレーム (〜 300,000 行) があることです。簡略化されたバージョンを以下に示します。
In [12]: df1
Out[12]:
SubID Condition Value
0 1 1 0.123
1 1 2 0.234
2 2 1 0.345
3 2 2 0.456
4 3 1 0.567
5 3 2 0.678
6 4 1 0.789
また、サブジェクトが属する遺伝子グループを保持する奇数行が 80 行しかない 2 つ目のテーブルもあります。
そのデータを最初の DataFrame に追加したいと思います。コーディング表の簡略版を以下に示します。
In [17]: df2
Out[17]:
Subject Number Genetic Group
0 1 A
1 2 C
2 3 A
3 4 B
私が終わらせたいのは:
In [19]: df1
Out[19]:
SubID Condition Value Genetic Group
0 1 1 0.123 A
1 1 2 0.234 A
2 2 1 0.345 C
3 2 2 0.456 C
4 3 1 0.567 A
5 3 2 0.678 A
6 4 1 0.789 B
for: ループを使用できますが、これを回避する Pandas DataFrame のマージまたは結合操作を使用する方法があるかどうか疑問に思いましたか? どうもありがとう、