1

だから私は、正規表現がこの問題の適切な解決策であることをすぐに伝えたいと思います。それが解析しているhtmlは、常に同じ形式になっています。

解析に関心のある特定のHTMLは、次のようになります。

<a href="" target="" onCick=""><img style="" onmouseover="" onmouseout="" src="" alt="" /></a>

その文字列から「src」タグと「alt」タグを引き出すことに興味があります。正規表現は、私がそれを使って何をしているのか本当に理解していないという点で私を本当に混乱させます。だから本当の助けをいただければ幸いです。たくさんの意味があります、ありがとう。

4

1 に答える 1

1

どの言語を使用していますか?正規表現の方言には、いくつかの小さな違いがあります。

いずれにせよ、JavaScriptの場合は

var match = /src="(.*?)"\s+alt="(.*?)"/.exec(pieceOfHTML);
// match[1] should be the src, match[2] the alt

またはPythonの場合、

match = re.search(r'src="(.*?)"\s+alt="(.*?)', pieceOfHTML)
# match.group(1) and match.group(2) respectively

コメントの編集:

<a href=".*?"\s+target=".*?"\s+onCick=".*?"><img style=".*?"\s+onmouseover=".*?" onmouseout=".*?"\s+src="(.*?)"\s+alt="(.*?)"

空白に関する寛容さを備えた、必要なパターンのみに一致する適切な正規表現である必要があります。

于 2012-11-01T13:20:11.533 に答える