整数と、浮動小数点数や文字などの偽のデータで構成されるTSVファイルがあります。
アイデアは、ファイルの内容を読み取り、どれが悪いか(整数以外のデータを含む)を見つけることです
ファイルが読み取り用に開かれると、readlineメソッドを使用して各行を読み取ることができます。もちろん、readline()メソッドは、構成データ型ではなく、文字列として読み取られた各行を返します。私の理解では、pickle
モジュールを何らかの方法で使用して、ダンプおよびロードメソッドを実行するシリアル化されたバージョンとして表すことにより、元のデータ型を確実に保持できます。
問題は、どうすればこれを行うことができるかということです。
readlineはデフォルトで文字列として読み取るため、各行を読み取ってピクルスにすることは役に立ちません。これにより、ピクルス化すると、実際には文字列をシリアル化されたPythonオブジェクト表現にピクルスするだけで、ピクルス解除すると文字列としてのみ返されます。したがって、整数や文字などの行の実際のデータは、関係なく文字列として表されます。
だから私は問題は、どうやって正しい方法で物事をピクルスにするのか、それともデータ型が維持されていることを確認するためにファイルの各行を処理するのかということだと思います。