0

これがなかなか取れなくて困ってます..

私はこのhtmlコードを持っています:

<table border='1'><tr><th></th><th>Fact Questions Report Type Count</th></tr><tr>
<td class=' sorting_1'>0 - 18</td><td>78</td></tr><tr><td class=' sorting_1'>19-64</td>
<td>78</td></tr><tr><td class=' sorting_1'>65+</td><td>78</td></tr><tr>
<td class=' sorting_1'>אין גיל</td><td>78</td></tr><tr><td class=' sorting_1'>נפטר</td>
<td>78</td></tr><tr><td class=' sorting_1'>Unknown</td><td>78</td></tr></table>

ご覧のとおり、次のようなキャッチしたい特殊文字があります。

אין גילנפטר

\Wすべての単語と数字とそれらを除外する正規表現を行うことを考えました\D->=|'

しかし、私はそれを働かせることができません..

完璧な解決策は、特別なキャラクターを持つ2つのアイテムを手に入れることです... אין גיל,נפטר

PS: 他の特別なキャラクターが存在する可能性があります

ここで例を見てみたいと思います: RegexPal - Online Editor

tnx!

4

3 に答える 3

2

特にヘブライ語の文字をキャッチしようとしている場合は、試すことができます

[\u0590-\u05FF\s]+

スペースが問題ないと仮定するか、より高度な正規表現エンジンを使用している場合は、

[\p{Hebrew}\s]+

英語以外の印刷可能な文字を実際にキャッチしようとしている場合は、何を試したかを確認せずに助けることは困難です。\Dは のサブセットで\Wあるため、 のみが必要です\W+。または、除外したいという点であなたが正しく理解している場合は->=|'[^\w>=|-]+(ダッシュはここの最後 (または の後の 2 番目の位置) にある必要があります^)。

于 2013-11-14T15:06:39.490 に答える
1

すべての単語 \W と数字 \D とそれらの =|' を除外する正規表現を行うことを考えました

それをするだけです:[^\w\d=|']+

正規表現の視覚化

[^\W]:\Wは 以外\w[^\W]意味するため、を使用できないことに注意し\w\wください- x - = +

于 2013-11-14T15:03:27.870 に答える