1

これがここでの適切な質問であることを願っています。そうでない場合は、お知らせください。すぐに削除します。

質問:

Python を使用して、結合中に発生するエラーについて大規模なデータセットを (視覚的に) 検査するにはどうすればよいですか?

バックグラウンド:

私は、1 つの大きなデータセットを形成するために結合するいくつかの大規模な (ただし、「大きな」ということはわかりません) データセットを使用しています。この新しいセットのサイズは ~2.5G であるため、ほとんどのスプレッドシート プログラムには適合しません。少なくとも、私が試したもの (MS Excel、OpenOffice) には適合しません。

最終的なデータセットを作成するプロセスでは、ファジー マッチング ( 経由fuzzywuzzy) が使用されます。マッチングの結果を調べて、エラーが発生していないかどうかを確認したいと考えています。

今のところ、セット全体をデータフレームにインポートしようとしましたpandas。この DF には 64 の列があるため、結果として表示される情報のようなことを単純に行うとdf.head()、明らかにすべての列が表示されるわけではありません。.head()したがって、複数の呼び出しを繰り返すことは除外しました。

データフレームの特定の側面を視覚化することについて同様の質問があります here。基礎となる構造や型について何も視覚化する必要がないため、私の質問は異なると思います。エラーがあると思われる領域を視覚的に検査したいだけです。

4

1 に答える 1

1

10 ~ 12 行をスライスしてから、64 行 x 12 列のデータフレームを転置します。非常に大きなインデックス名がなければ、これは読みやすいはずです。

import pandas as pd
import numpy as np

# Set max number of rows, 64 would be enough here but I'm trying to be safe
pd.set_option('display.max_rows', 500)

df = pd.DataFrame(np.random.randn(1000,64))
nstart = 100
# Slice 12 lines starting at nstart, and transpose that...
df.iloc[nstart:(nstart+13)].T

ここでは出力を惜しみませんが、上記のコードを実行してみてください。

于 2015-07-21T17:38:44.493 に答える