多数の変数を持つ 2 つのデータフレームがあります。主な関心事は、変数 df1.organization_name および df2.legal.name です。ここでは、完全修飾された SQL 風の名前を使用しています。
df1 のサイズは 15 x 2700 で、df2 のサイズは 10x40,000 です。基本的に、「共通」または「一致」列は名前フィールドです。
私はこの記事を見直しました R の変数のファジーマッチングによるマージは非常に役に立ちましたが、スクリプトを dfs で動作させるためにスクリプトをラングルする方法を実際には理解できません。
エラーが発生し続けます - Error in which(organization_name[i] == LEGAL.NAME) : object 'LEGAL.NAME' not found.
希望するマッチングと結果
私がやろうとしているのは、df1.organization_name のすべてを df2.legal_name のすべてと比較し、それらが非常に近い場合 (>=85% など) に比較することです。そして、上記のスクリプトのように、一致した顧客名と一致した比較名を取得し、後で分析するためにそれらを data.frame に入れます。
したがって、私の顧客名の 1 つが「Johns Hopkins Auto Repair」で、公開リストの名前の 1 つが「John Hopkins Microphone Repair」である場合、それは適切な一致であり、顧客リストに何らかのインジケータを追加したいと考えています。 (別の列に)「部分一致」と公開リストの名前が表示されます。
テキスト ラングリングの dfs の例:
df1.organization_name (これらは偽の名前です。顧客名を投稿することはできません)
- My Company LLC
- John Johns DBA John's Repair
- Some Company Inc
- Ninja Turtles LLP
- Shredder Partners
df2.LEGAL.NAME (これらはオープン ソース ファイルの実際の名前です)
- $1 & UP STORE CORP.
- $1 store 0713
- LLC 0baid/munir/gazem
- 1 2 3 MONEY EXCHANGE LLC
- 1 BOY & 3 GIRLS, LLC
- 1 STAR BEVERAGE INC
- 1 STOP LLC
- 1 STOP LLC
- 1 STOP LLC DBA TIENDA MEXICANA LA SAN JOSE
- 1 Stop Money Centers, LLC/Richard