大きな(1.5G)ファイルをパンダにロードしようとしていますが、非常に奇妙な問題がいくつかあります。ファイルをロードすると、1 つの列に「str」と「float」が混在しているように見えます。例えば
セッション.visitor_gwp[2] '185511.545011'
セッション。ビジター_gwp[8540709] 1349514214092.844
シリーズ自体の dtype は dtype('O') です。ファイル内の列の内容は、数値データと英数字データの混合です。したがって、すべての要素が「str」型であることが期待されます。
これは、列の特定の組み合わせでのみ発生し (UNIX で関連する列のみを抽出すると、作業ファイルが生成されます)、ファイル内の行の順序に依存しているようです!
ファイルには 14 列と 10M 行があります。
これは私が使用しているコマンドです: sessions=pandas.read_csv('bigfile.txt', delimiter='\t')
'~' のように、コメントと quotechar をファイルに表示されない文字に設定してみました。これは役に立ちません。
dtype を明示的に指定することでこれを回避できますが、Series オブジェクトは単一の型の要素を表す必要があると (おそらく間違って) 信じていたため、自動型検出がこのように動作するのは奇妙に思えます。
ありがとう、マーティン
パンダ。バージョン= '0.10.1' numpy. バージョン='1.7.0'