0

オープン ソースの Web スクレイピング ツールである Web ハーベスト (http://web-harvest.sourceforge.net/) を使用しています。

私が使用しようとしている正規表現には、「<」、「>」文字が含まれています (入ってくるすべての HTML タグを取り除こうとしているからです)。要素のコンテンツは整形式の文字データまたはマークアップで構成されている必要があるため、これは問題を引き起こします。

どういうわけか正規表現をエスケープする必要がありますが、方法がわかりません。

何か案は?

4

1 に答える 1

1

正規表現を整形式の XML にします。とで置き換え<てみてください。同様に、正規表現に がある場合は、それを に置き換える必要があります。&lt;>&gt;&&amp;

また、このタスクには正規表現の代わりに HTML パーサーを使用することをお勧めします。

于 2011-02-10T20:17:37.317 に答える