160 万行のデータを含む CSV があり、約 150 MB で、製品データが含まれています。大きなCSVに製品のリストが含まれている2000行を含む別のCSVがあります。それらは一意の ID によって相互に関連付けられます。アイデアは、CSV に 2000 行の製品データを追加することです。
databank.csv には、ヘッダー、、、がID
あります。ヘッダーがあります。Product Name
Description
Price
sm_list.csv
ID
sm_list.csv
結果は、対応するデータがdatabank.csv
... 2000行の長さの製品を含むcsvを出力することです。
私の元のソリューションは、すべてをsm_list
読み取り、データバンクを 1 行ずつ読み取ります。データバンクから読み込んだ行で検索sm_list
します。ID
これにより、2000x160 万 = 32 億回の比較が行われます。
このタスクを最も効率的な方法で完了するための基本的なアルゴリズムの概要を教えてください。