2

httpリンクを照合するための正規表現の使用に問題があります。ウェブサイトのソースコードから抽出したいパターンがあります。ソースコードには200行以上あり、HTMLのようなジブリッシュがたくさんあります。</html><body... useless links useless images'

必要なhttpリンクは次のパターンに該当します。

<a href"http:www.google.com/....1,1">
<a href"http:www.google.com/....2,2">
<a href"http:www.google.com/....3,3">

httpリンクを取得したいだけですが、それらに固有のパターンはエンディングです。助けてください、私はgusb、regxpr、grepの実験で何時間も立ち往生しています。

4

1 に答える 1

6

正規表現を一般的なURL(URLマッチング)に一致させることは困難ですが、常にその正確なパターンに一致することを探している場合は、これを試すことができます

`http:www\.google\.com/.*?(\d+),\1`

これにより、http:www.google.comが検索され、その後に何かが続き、コンマの両側に同じ2つの数字が続きます。これは、表示したパターンから必要に応じて表示されます。

于 2012-07-10T12:36:15.980 に答える