これがここでの適切な質問であることを願っています。そうでない場合は、お知らせください。すぐに削除します。
質問:
Python を使用して、結合中に発生するエラーについて大規模なデータセットを (視覚的に) 検査するにはどうすればよいですか?
バックグラウンド:
私は、1 つの大きなデータセットを形成するために結合するいくつかの大規模な (ただし、「大きな」ということはわかりません) データセットを使用しています。この新しいセットのサイズは ~2.5G であるため、ほとんどのスプレッドシート プログラムには適合しません。少なくとも、私が試したもの (MS Excel、OpenOffice) には適合しません。
最終的なデータセットを作成するプロセスでは、ファジー マッチング ( 経由fuzzywuzzy
) が使用されます。マッチングの結果を調べて、エラーが発生していないかどうかを確認したいと考えています。
今のところ、セット全体をデータフレームにインポートしようとしましたpandas
。この DF には 64 の列があるため、結果として表示される情報のようなことを単純に行うとdf.head()
、明らかにすべての列が表示されるわけではありません。.head()
したがって、複数の呼び出しを繰り返すことは除外しました。
データフレームの特定の側面を視覚化することについて同様の質問があります here。基礎となる構造や型について何も視覚化する必要がないため、私の質問は異なると思います。エラーがあると思われる領域を視覚的に検査したいだけです。