python - データフレームにロードする前にデータのサニタイズが必要な CSV ファイルを読み取る

Question

CSVファイルをパンダに読み込んでいます。問題は、ファイルで行と他の行の計算値を削除する必要があることです。私の現在のアイデアは次のように始まります

    with open(down_path.name) as csv_file:
    rdr = csv.DictReader(csv_file)
    for row in rdr:
        type = row['']
        if type == 'Summary':
            current_ward = row['Name']
        else:
            name = row['Name']
            count1 = row['Count1']
            count2 = row['Count2']
            count3 = row['Count3']
            index_count += 1
        # write to someplace

,Name,count1,count2,count3
Ward Summary,Aloha 1,35,0,0
Individual Statistics,John,35,0,0
Ward Summary,Aloha I,794,0,0
Individual Statistics,Walter,476,0,0
Individual Statistics,Deborah,182,0,0

最終結果は、既存のデータフレームに連結できるデータフレームになる必要があります。

これを行うための頭の痛い方法は、単純に変換を行って新しい CSV ファイルを作成し、それを読み込むことです。非 Pythonic の方法のようです。

要約行を取り出し、類似した名前 (Aloha 1 と Aloha I) を結合し、個々の統計情報を削除して、各個人に Aloha 1 ラベルを付ける必要があります。さらに、このデータが何月のものかを追加する必要があります。ご覧のとおり、データにはいくつかの作業が必要です:)

望ましい出力は、Jan-16、Aloha 1、John、1,2,3 です。

Aloha 1 はその上の要約行からどこに来るか

python - データフレームにロードする前にデータのサニタイズが必要な CSV ファイルを読み取る

1 に答える 1

Related

Reference