python-2.7 - 大規模なデータセットで文字列を数値に変換する高速な方法

翻译自：https://stackoverflow.com/questions/24869529 2014-07-21T16:02:30.283

249 次

数千万行のデータセットがあります。このデータのいくつかの列は、カテゴリの特徴を表しています。これらの機能の各レベルは、「b009d929」のような英数字の文字列で表されます。

C1        C2        C3        C4        C5        C6        C7      
68fd1e64  80e26c9b  fb936136  7b4723c4  25c83c98  7e0ccccf  de7995b8 ...  
68fd1e64  f0cf0024  6f67f7e5  41274cd7  25c83c98  fe6b92e5  922afcc0

メモリを節約するために、Python を使用して各レベルを数値にマップできるようにしたいと考えています。そのため、機能 C1 のレベルは 1 から C1_n までの数字に置き換えられ、C2 のレベルは 1 から C2_n までの数字に置き換えられます... 各機能には、10 未満から 10k+ までの範囲の異なる数のレベルがあります。Pandas の .replace() で辞書を試しましたが、非常に遅くなります。この問題にアプローチするための迅速な方法は何ですか?

python-2.7 - 大規模なデータセットで文字列を数値に変換する高速な方法

1 に答える 1

Related

Reference