パンダは初めてですが、すでに行単位の適用操作を並列化したいと思っています。これまでのところ、 pandas groupby の後に Parallelize が適用されることがわかりました。ただし、それはグループ化されたデータ フレームに対してのみ機能するようです。
私の使用例は異なります。休日のリストがあり、現在の行/日付について、この日の前後から次の休日までの日数を見つけたいと考えています。
これは、apply を介して呼び出す関数です。
def get_nearest_holiday(x, pivot):
nearestHoliday = min(x, key=lambda x: abs(x- pivot))
difference = abs(nearesHoliday - pivot)
return difference / np.timedelta64(1, 'D')
どうすれば高速化できますか?
編集
私は pythons プールで少し実験しましたが、それは良いコードではなく、計算結果も得られませんでした。