問題タブ [fuzzywuzzy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 条件に基づく2つの大規模データセットでのファジーWuzzy文字列マッチング - python
Pandas DataFrames に読み込んだ 2 つの大きなデータ セットがあります (それぞれ ~ 20K 行と ~40K 行)。アドレス フィールドで pandas.merge を使用してこれら 2 つの DF を完全にマージしようとすると、行数に比べてわずかな数の一致が得られます。そこで、あいまい文字列の一致を試みて、出力一致の数が改善されるかどうかを確認しようと考えました。
DF1 [アドレスライン] に fuzzywuzzy extractone 関数を DF2 [アドレスライン] に適用した結果、DF1 (20K 行) に新しい列を作成することで、これに取り組みました。10億近くの比較を行うため、これには永遠に時間がかかることにすぐに気付きました。
これらのデータセットには両方とも「County」フィールドがあり、私の質問は次のとおりです。「county」フィールドが同じであることに基づいて、両方の DF の「addressline」フィールドで条件付きでファジー文字列一致を行う方法はありますか? 私はこの議論に出くわしました: Python を使用したビッグ データセットのファジー ロジック
ただし、郡に基づいてフィールドをグループ化/ブロックする方法については、まだあいまいです (しゃれは意図していません)。どんなアドバイスでも大歓迎です!
Excel にインポートされた 2 つの異なる DF のサンプル セットである 2 つの画像を追加しました。私の質問にとって重要ではないため、すべてのフィールドが含まれているわけではありません。最終目標を繰り返しますが、DF の 1 つに、2 番目の DF の住所行と他の住所行とのファジー マッチングの結果が上位にある新しい列が必要ですが、両方の DF 間で郡が一致する行のみが必要です。そこから、あいまい一致した住所と 2 番目の DF の住所行列の 2 つの DFS をマージする予定です。うまくいけば、これは紛らわしく聞こえません。
python - Pythonで正規表現を使用して文字列から数字を抽出する
解析したいURLのリストがあります:
正規表現を使用して、文字列の末尾の数字と句読点の前の文字を含む新しいリストを作成したいと考えています (上記のリストの最初の文字列が示すように、一部の文字列には 2 つの位置に数字が含まれています)。したがって、新しいリストは次のようになります。
これは私が運がないことを試したものです:
アップデート:
ランニング -
次のエラーが表示されます-
また、文字がある場合、これは数字の後に文字をピックアップするようには見えません..!