python - 大きなファイルを pandas DataFrame にロードするときの予期しない動作

Question

大きな（1.5G）ファイルをパンダにロードしようとしていますが、非常に奇妙な問題がいくつかあります。ファイルをロードすると、1 つの列に「str」と「float」が混在しているように見えます。例えば

セッション.visitor_gwp[2] '185511.545011'

セッション。ビジター_gwp[8540709] 1349514214092.844

シリーズ自体の dtype は dtype('O') です。ファイル内の列の内容は、数値データと英数字データの混合です。したがって、すべての要素が「str」型であることが期待されます。

これは、列の特定の組み合わせでのみ発生し (UNIX で関連する列のみを抽出すると、作業ファイルが生成されます)、ファイル内の行の順序に依存しているようです!

ファイルには 14 列と 10M 行があります。

これは私が使用しているコマンドです: sessions=pandas.read_csv('bigfile.txt', delimiter='\t')

'~' のように、コメントと quotechar をファイルに表示されない文字に設定してみました。これは役に立ちません。

dtype を明示的に指定することでこれを回避できますが、Series オブジェクトは単一の型の要素を表す必要があると (おそらく間違って) 信じていたため、自動型検出がこのように動作するのは奇妙に思えます。

ありがとう、マーティン

パンダ。バージョン= '0.10.1' numpy. バージョン='1.7.0'

0 に答える 0