私は大きなデータ セットを持っており、最近 Dask を導入しました。各行のテキストをトークン化しようとしています。これは、以下に示すようにパンダで行うのは非常に簡単ですが、エラーが発生しています
AttributeError: Dask を使用しようとすると、'DataFrame' オブジェクトに属性 'lower' がありません (以下のコードの 2 番目のグループを参照)
import pandas as pd
import dask
import dask.dataframe as dd
def to_lower(text):
return text.lower()
df_2016 = pd.read_csv("2016_Cleaned_DroppedDup.csv")
df_2016['token2'] = df_2016['token2'].apply(lambda x: pr.to_lower(x))
DASK の場合:
df_2016 = dd.from_pandas(df_2016, npartitions = 4 * multiprocessing.cpu_count())
df_2016 = df.2016.map_partitions.(lambda df: df.apply(lambda x: pr.to_lower(x))).compute(scheduler = 'processes')