顧客データのcsv
ファイルがあり、過去の行動に基づいて顧客が製品を購入する確率を調べたいと思います。
テーブルは次のようになります。
custId prodId purchased
001 0001 0
002 0001 0
006 1001 1
001 0501 0
012 8001 0
189 0071 0
487 0001 1
... ... ...
custId
は顧客ID、は製品です。顧客は同じ製品を複数回表示できるため、prodId
列は一意でも一意でもありません。custId-prodId
理想的な出力は次のようになります。
custId purchased
001 .0999
002 0
006 1
012 0
189 .75
487 1
... ...
bash
ファイルが大きすぎてメモリに収まらないため、これを実行することを検討しています。
助言がありますか?