こんにちは、次のようなタブ区切りのファイルがあるとします (各フィールドはタブ スペースで区切られています)。
Name ID Country GPA
Tom id1 USA 3.4
Jon id2 Canada
Amy UK 3.0
Kevin id4 Scotland
Kris 3.1
ここで name の密度 = 1.0 は 100% ID の密度は 0.6 で 60% (2 つのフィールドが欠落) です Country の密度は 0.8 GPA の密度も 0.6
Pythonを使用してファイルのこれを見つける方法は? また、40 GB を超える数千のファイルに対してこれを行う必要があるため、効率的で高速なアルゴリズムが必要です。Map Reduce コードも機能します。
前もって感謝します :)