pandas を使用して、テキスト型のデータの数を取得し、指定されたデータの上位 5 つを見つけています。
入力ファイルは次のとおりです。
Gears of war 3
Gears of war
Assassin creed
.......
.......
Crysis 2
Gears of war3
Sims
私の出力は次のとおりです。
{
'Gears of War 3': 6,
'Batman': 5,
'gears of war 3': 4,
'Rocksmith': 5,
'nan': 32870
}
コードで csv ファイルの nan 値のカウントをスキップしたい。
私のコードは次のとおりです。
data = pandas.read_csv('D:\my_file.csv')
for colname, dtype in data.dtypes.to_dict().iteritems():
if dtype == 'object':
print colname
count = Counter(data[colname])
d = dict((str(k), v) for k, v in count.iteritems())
f = dict(sorted(d.iteritems(), key=lambda item: item[1], reverse = True)[:5])