私の実際の問題では、2 つの情報テーブル (x,y) があります。x には ~260 万のレコードがあり、y には ~10K のレコードがあります。2 つのテーブルには多対 1 (x->y) の関係があります。y に基づいて x をサブセット化したい。
一番合ってると思った投稿はこれとあれとこれ。私はnumpy配列に落ち着きました。私は他のデータ構造を使用することにオープンです。スケーリングできるものを選択しようとしていました。適切なアプローチを使用していますか? これをカバーする他の投稿はありますか?これは一度しか行わないため、データベースを使用する必要はありませんでした。
次のコードは、私がやろうとしていることを説明しようとしています。
import numpy, copy
x=numpy.array([(1,'a'), (1, 'b'), (3,'a'), (3, 'b'), (3, 'c'), (4, 'd')], dtype=[('id', int),('category', str, 22)] )
y=numpy.array([('a', 3.2, 0), ('b', -1, 0), ('c', 0, 0), ('d', 100, 0)], dtype=[('category', str, 20), ('value', float), ('output', int)] )
for id, category in x:
if y[y['category']==category]['value'][0] > 3:
y[y['category']==category]['output']=numpy.array(copy.deepcopy(id))