免責事項: html と regex を併用してはならないことはわかっていますが、これは例外的なケースです。
Google 検索結果を解析し、キャッシュ URL を抽出する必要があります。私はこれをページに持っています:
<a href="/url?q=http://webcache.googleusercontent.com/search%3Fq%3Dcache:
gsNKb7ku3ewJ:somedata&ei=MyIIUtrZAcPX7AaVzIHwDg&ved=0CB8QIDAC&usg
=AFQjCNGcnWfdzQiTKwyAMmI-M-xzxII5Ag">Cached</a>
私は次のような簡単なことを試しました:href=[\'"]?([^\'" >]+)
しかし、それは私が必要とするものではありません。hrefから単一のパラメーター ( q )を抽出したい。私は取得する必要があります:
http://webcache.googleusercontent.com/search%3Fq%3Dcache:gsNKb7ku3ewJ:somedata
したがって、コンテンツに「webcache」という単語が含まれている場合、「url?q=」と最初の「&」の間のすべて。