0

ここで説明を見ることができますhttp://www.mdh.org/sites/www/healthapp/jobs/View.aspx?id=10

MDH人事

525 E.グラントセント.

マコーム、イリノイ州 61455

電話: 309-836-1577

ファックス: 309-836-1677

ページにはこの住所があり、正規表現を使用して市と州を抽出したいと考えています。この場合、それは Macomb と IL です。

しばらくの間、次の正規表現を使用しましたが、説明に類似のパターンが複数含まれている場合は機能しませんでした。

(\w+),\s+(\w{2})\s+\d+

最初にこれらの住所行を抽出し、次にこのパターンを持つ行を抽出するように指示する正規表現を作成するにはどうすればよいですか?

4

1 に答える 1

0
^([A-Z][A-Za-z\s]*),\s+([A-Z]{2})\s+\d{5}$

ノイズを抑えるには十分だと思います。欠点は、あなたが望むものを潜在的に避けることができるということです. その場合、あなたのような強力ではない正規表現を使用して、ページを反復処理することができます。とにかく、正規表現を使用して完璧を達成することはできません。

Javascriptで動作します。Python のニーズに合わせて構文を調整します。

于 2013-01-28T09:49:09.230 に答える