python - Python - 効率的な 2 つのデータセットのすべてのペアごとの組み合わせ

Question

2 つの csv 列のすべてのペアごとの組み合わせで構成されるデータセットを作成したいと考えています。私は Stata を使用していますが、2,147,483,647 回の観測しか許可されていません。私はPythonについてあまり詳しくありません。Pythonで、できれば効率的にそれを行うことができますか? いくつかのループを作成できますが、永遠にかかると思います。

ここに例があります: 私はこのような a.csv を持っています (列として:): 1 2 3 そして私はこのような b.csv を持っています (列として:) a b c これを出力として欲しい: 1,a 1,b 1,c 2,a 2,b 2,c ... a.csv と b.csv には、それぞれ約 700 万のレコードがあります。助けはありますか？ありがとう！

編集:「グループ内」をペアで実行できれば、非常に便利です。a.csv と b.csv の両方に別の列 (性別など) があるとします。そして、私は男性のすべてのペアワイズと女性のすべてのペアワイズを実行したいと考えています (もちろん、それははるかに複雑です。属性データには 100 を超えるカテゴリがあります)。

score 0 · Accepted Answer

Python はこれらの点で優れています。2 つの csv ファイルが非常に大きく、python が反復を提供する場合。

for line1 in open('really_big_file.csv'):
    for line2 in open('really_big_file.csv'):
        combine(line1, line2)

Python はすべての行データを反復して解放します。これは自動です。

python - Python - 効率的な 2 つのデータセットのすべてのペアごとの組み合わせ

1 に答える 1

Related

Reference