0

2 つのファイルをマージ (左結合) して、左側のファイルのどのレコードが右側のファイルの一致する行で返されるかを特定します。

一致キーは、郵便データを定義する列の選択に基づいています。一致するしきい値を定義し、重複管理のために一意のアドレスに一意のキーを割り当てる方法を検討しています。これは家計化とも呼ばれ、新しいマッチによって処理が減らないことを意味します。

本当の課題は、非常に大きなファイルに対してメインのマッチング ループを効率的に実行することです。

このセットアップはおそらくマップ/リデュースの良い候補ですが、今のところ自己完結型の (「ナイーブではない」) ソリューションを検討したいと思います。

Python で大きなファイル (10GB 以上) を反復処理する最も効率的な方法を確認しましたが、正しいテーブルが何度も再訪されるため、この演習に固有の最適な構造がある可能性があります。

何か案は?ありがとう。

import csv
import StringIO
from fuzzywuzzy import fuzz

cols1 = [ 1 , 3 , 4]
f1 = '''x1,x2,x3,x4,x5
     the,quick,brown,fox,jumps
     over,the,lazy,dogs,back,
     bla,bla,bla,bla,bla'''

 cols2 = [ 2 , 3 , 4]
 f2 = '''x1,x2,x3,x4,x5
      the,fast,brown,fox,jumps
      over,many,snoozing,dogs,back,
      the,prompt,fuchsia,fox,jumps
      over,the,lazy,dogs,back,
      bl,the,bl,bl,fox'''


 def standardize( x , selection , field_lengths=None ):
     y = ','.join([ x[selection[i]] for i in range(len(selection)) ])
     return y

 f1 = StringIO.StringIO(f1)
 f2 = StringIO.StringIO(f2)

 reader1 = csv.reader( f1 )
 reader2 = csv.reader( f2 )

 keys2 = []
 for row in reader2:
     # standardize and load key
     keys2.append( standardize( row , cols2 ) )

 for row in reader1:
     # standardize and compare
     key1 = standardize( row , cols1 )
     # ------------------------------------------------
     matches = [ fuzz.ratio( key1 , k) for k in keys2 ]
     # ------------------------------------------------
     max_match = max( matches )
     max_pos = [i for i, x in enumerate(matches) if x == max_match ][0]
     print key1 , "-->" , keys2[max_pos] , ':' , max_match
4

0 に答える 0