私の問題は、大きな CSV ファイルからのデータを処理するコンテキストにあります。
その列で見つかった値に基づいて列のデータ型を決定 (つまり、推測) する最も効率的な方法を探しています。非常に乱雑なデータを扱っている可能性があります。したがって、アルゴリズムはある程度のエラー耐性を持つ必要があります。
次に例を示します。
arr1 = ['0.83', '-0.26', '-', '0.23', '11.23'] # ==> recognize as float
arr2 = ['1', '11', '-1345.67', '0', '22'] # ==> regognize as int
arr3 = ['2/7/1985', 'Jul 03 1985, 00:00:00', '', '4/3/2011'] # ==> recognize as date
arr4 = ['Dog', 'Cat', '0.13', 'Mouse'] # ==> recognize as str
結論: Python パッケージまたはいずれかを検出できるアルゴリズムを探しています。
- CSV ファイルのスキーマ、またはそれ以上
- 配列としての個々の列のデータ型
現在文字列として表現されているデータの型を推測する方法も同様の方向に進んでいます。ただし、多くの大きなスプレッドシート (データの由来) を扱っている可能性があるため、パフォーマンスが心配です。