pandas - Daskを使用して文字列に関数を使用するには?

翻译自：https://stackoverflow.com/questions/64436667 2020-10-20T00:03:26.167

470 次

私は大きなデータセットを持っており、最近 Dask を導入しました。各行のテキストをトークン化しようとしています。これは、以下に示すようにパンダで行うのは非常に簡単ですが、エラーが発生しています

AttributeError: Dask を使用しようとすると、'DataFrame' オブジェクトに属性 'lower' がありません (以下のコードの 2 番目のグループを参照)

import pandas as pd
import dask 
import dask.dataframe as dd

 def to_lower(text):
        return text.lower()

df_2016 = pd.read_csv("2016_Cleaned_DroppedDup.csv")
df_2016['token2'] = df_2016['token2'].apply(lambda x: pr.to_lower(x))

DASK の場合:

df_2016 = dd.from_pandas(df_2016, npartitions = 4 * multiprocessing.cpu_count())
df_2016 = df.2016.map_partitions.(lambda df: df.apply(lambda x: pr.to_lower(x))).compute(scheduler = 'processes')

pandas - Daskを使用して文字列に関数を使用するには?

1 に答える 1

Related

Reference