自動インクリメント ID を含む列を DASK データフレームに追加する必要があります。SOでPandasソリューションを見つけたので、Pandasでそれを行う方法を考えていますが、DASKでそれを行う方法がわかりません。私の最善の試みは次のようになり、自動インクリメント関数は 100 行のテスト ファイルに対して 2 回しか実行されず、すべての ID が 2 であることがわかりました。
def autoincrement(self):
print('*')
self.report_line = self.report_line + 1
return self.report_line
self.df = self.df.map_partitions(
lambda df: df.assign(raw_report_line=self.autoincrement())
)
パンダのやり方はこんな感じ
df.insert(0, 'New_ID', range(1, 1 + len(df)))
または、特定の CSV 行の行番号を取得してそれを列に追加できれば、それは素晴らしいことですが、この段階では簡単に可能ではないようです。