A
文字列を正規表現と比較したいと思いR
ます。
A = u'Hi my friend, my name is Julio'
R = r'Hi\s+my\s+friend,\s+my\s+name\s+is([A-Za-z]+)'
このとき、 と のおかげで、構文が正しいかどうかを簡単に知ることができre.match
ますre.search
。マッチがうまくいかないときのAとBの違いを研究したいと思います。
私の最初のケースは単純です。問題が正規表現グループの一致だけにあるかどうかを知るために、正規表現([A-Za-z]+)
を置き換えます。(.+)
この場合、名前に定義されたグループを期待して文字列構文が適切であると言って、問題を簡単に提起できます。
HTML diff
ステップ1とステップ2が失敗した場合、正規表現が失敗した場所を特定するために正規表現を使用して差分を作成したいと思います。
関数を調べましたが、この関数は文字ごとにのみ機能し、部分文字列では機能しないようですdifflib
。find_longest_match
正規表現の比較に基づいて差分を特定し、類似性を測定する比率を潜在的に計算するためのアイデア/提案はありますか?