XPaths の結果 (php/domxpath) をクリーンアップする際にいくつか問題があります。通常は Regex を使用してこれを達成しようとしますが、ここで多くの反正規表現の提案に気付いたので、私の問題に対するより良い解決策があるかどうかを尋ねたかったのです。
都市と郵便番号の分離
Xpath は「10021 ニューヨーク市」を配信します。郵便番号と市区町村は異なります。これらをどのように分割するのが最善ですか?
URL から情報を抽出する
Xpath は「http://www.whatever.com/?k=5000+z=6000」を配信します。「k=500+z=600」を抽出するにはどうすればよいですか?
長いテキスト セグメントから情報を抽出する
Xpath は、「合計サイズは 3130 フィート ² 以上になる可能性があります」と提供します。唯一の一貫したパターンは、数字の後に ft² が続きます。