-1

私はこのようなコードを持ついくつかのhtmlファイルを持っています:

 <div style="border: 0px red solid; width: 633px; position: relative; margin: 0px;
                                                                float: right">
                                                                <font style="font-size: 8pt; color: Navy; font-weight: Bold;">Unit Name: </font>My Unit Name&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <font style="font-size: 8pt; color: Navy; font-weight: Bold;">
                                                                    Manager: </font>My Manager Name&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <font style="font-size: 8pt;
                                                                        color: Navy; font-weight: Bold;">Category: </font>My Category
                                                            </div>
                                                            <div style="border: 0px red solid; width: 122px; position: relative; margin: 0px;
                                                                padding: 0px;">
                                                                <button name="sSdewfwo87kjLKH7624QAZMLLPIdyt75576rtffTfdef22de" style="font-family: Tahoma;"
                                                                    onclick="OpenMyWin2(1,843442,8445,'bf61fd588f00cbe7a37dab20c62e1c63')">
                                                                    More Info</button></div>

カテゴリ:&マネージャー:&ユニット名:の前に情報を抽出したい。正規表現を使用して大きなhtmlファイルからそれらを抽出するにはどうすればよいですか。これらのファイルには、100個の同様のアイテムが含まれている場合があります。

4

3 に答える 3

0

そのツールの使用を検討することをお勧めします: http://htmlagilitypack.codeplex.com/

必要な HTML を簡単に解析できます。

于 2012-09-26T13:39:23.183 に答える
0

多分これはあなたを助けることができます。これは、先読みおよび後読みゼロ幅アサーションを使用します。

 (?<=(Category:|Manager:|Unit Name:) (</font>)?).*?(?=(&|<))

RegexBuddy スクリーンショット

ここに画像の説明を入力

于 2012-09-26T13:49:51.983 に答える