私はPythonが初めてで、パンダも初めてです。
私はそれを使用したいと思いますが、2つの列のパンダフィルタリングを辞書のリスト(両方とも80行)と比較すると、パフォーマンスに大きな違いがあるようです。私の大きな疑問は、パンダの実行に時間がかかる理由です。
パンダデータフレーム
timeit a = dfEnts[(dfEnts["col"]=="ro") & (dfEnts["sty"]=="hz")]
1000 ループ、ベストオブ 3:ループあたり239 us
対 dics の単純なリスト
timeit b = [ix for ix,ent in enumerate(ents) if (ent['col']=="ro") & (ent["sty"]=="hz")]
100000 ループ、ベストオブ 3:ループあたり11.4 us
vs numpy 構造化/レコード配列
timeit a = entsRec[(entsRec["col"]=="ro") & (entsRec["sty"]=="hz")]
100000 ループ、ベストオブ 3:ループあたり18.2 us
パンダを使用するが、同様の応答時間を持つ他の良い方法はありますか?
スクリプトは次のようになります..
ents = []
for idx in xrange(0,80)
dic = {'n':f, 'p':props,'li':li,'col':col,'sty':sty,'nu':nu,'ge':ge,'rr':rr,'ssty':ssty}
ents.append(dic)
# DataFrame
dfEnts = pd.DataFrame(ents)
# np rec array
entsTuples = [(ent[ 'n'],ent['p'], ent[ 'li'],ent['col'], ent[ 'sty'], ent['nu'],ent['ge'],ent[ 'rr'], ent['ssty']) for ent in ents]
ents_dt = dtype([('n', 'O'), ('p', 'O'), ('li', 'i1'), ('col', 'O'), ('sty', 'O'), ('nu', 'i1'), ('ge', 'i1'), ('rr', 'i1'), ('ssty', '<i4')])
entsRec = np.array(entsTuples,ents_dt)
そして、私はそれを計ります。