1

大規模なデータセットで RAM の問題を回避するために Python 3.4 で DASK パッケージを使用しようとしていますが、問題に気づきました。

ネイティブ機能「read_csv」を使用して、150MB未満のRAMを使用して大きなデータセットをdaskデータフレームにロードします。

PANDAS DB 接続 (制限およびオフセット オプションを使用) と dask 関数 "from_pandas" を使用して読み取った同じデータセットは、私の RAM を 500/750 MB まで満たします。

なぜこれが起こるのか理解できません。この問題を修正したいと思います。

ここにコード:

def read_sql(schema,tab,cond):

sql_count="""Select count(*) from """+schema+"""."""+tab
if (len(cond)>0):
    sql_count+=""" where """+cond

a=pd.read_sql_query(sql_count,conn)
num_record=a['count'][0]

volte=num_record//10000
print(num_record)

if(num_record%10000>0):
    volte=volte+1

sql_base="""Select * from """+schema+"""."""+tab
if (len(cond)>0):
    sql_base+=""" where """+cond
sql_base+=""" limit 10000"""

base=pd.read_sql_query(sql_base,conn)

dataDask=dd.from_pandas(base, npartitions=None, chunksize=1000000)

for i in range(1,volte):
    if(i%100==0):
        print(i)
    sql_query="""Select * from """+schema+"""."""+tab
    if (len(cond)>0):
        sql_query+=""" where """+cond
    sql_query+=""" limit 10000 offset """+str(i*10000)

    a=pd.read_sql_query(sql_query,conn)

    b=dd.from_pandas(a , npartitions=None, chunksize=1000000)

    divisions = list(b.divisions)
    b.divisions = (None,)*len(divisions)
    dataDask=dataDask.append(b)

return dataDask



a=read_sql('schema','tabella','data>\'2016-06-20\'')

助けてくれてありがとう

ニュースを待っています

4

1 に答える 1