regex - R正規表現：httpマッチング

Question

httpリンクを照合するための正規表現の使用に問題があります。ウェブサイトのソースコードから抽出したいパターンがあります。ソースコードには200行以上あり、HTMLのようなジブリッシュがたくさんあります。</html><body... useless links useless images'

必要なhttpリンクは次のパターンに該当します。

<a href"http:www.google.com/....1,1">
<a href"http:www.google.com/....2,2">
<a href"http:www.google.com/....3,3">

httpリンクを取得したいだけですが、それらに固有のパターンはエンディングです。助けてください、私はgusb、regxpr、grepの実験で何時間も立ち往生しています。

score 6 · Accepted Answer

正規表現を一般的なURL（URLマッチング）に一致させることは困難ですが、常にその正確なパターンに一致することを探している場合は、これを試すことができます

`http:www\.google\.com/.*?(\d+),\1`

これにより、http：www.google.comが検索され、その後に何かが続き、コンマの両側に同じ2つの数字が続きます。これは、表示したパターンから必要に応じて表示されます。

1 に答える 1