html の解析に Regex を使用しないように言われる前に、私はこれを認識していますが、私の会社は Iconico Data Extractor を使用して Web サイトからデータを抽出しており、カスタム スクリプトを作成できますが、javascript の正規表現でなければなりません。 、したがって、目標を達成するために正規表現を使用することに固執しています。
必要なのは、次の例の html を取得して各行を抽出することです
<b>Item 1</b> Text <br>
<b>Item 2</b> Text <br>
<b>Item 3</b> Text <br>
<p><font color="#000000" face="Arial, Helvetica, sans-serif"><b>Item 4:</b></font></p>
<p><font color="#000000" face="Arial, Helvetica, sans-serif">Detailed Description</font></p>
私が必要としているのは、各項目を式に分解して、HTML での表示方法とまったく同じように、タグを含むすべての行を取得することです。私はアイテム4を取得しようとし/<b>*details(.|\s)*?\/a>/gi
ましたが、アイテム1〜3を取得する方法がわかりません。必要なのは、〜からの行
/<b>*Item 1(.|\s)*?\br>/gi
だけで機能せず、何時間も遊んだ後、それ以上ではありません前方。可能であれば、フォントタグも取り除く必要があります。</b>
途中でクロージングがあるのでややこしいと思います。
式の設定方法について誰かアドバイスをいただけますか。一般的なコンセンサスが正規表現にノーであることはすでに知っているので、そのルートをもう一度たどる必要はありません:)
これは私にとってまったく新しいことなので、私が何をしようとしているのかを説明していただければ幸いです。
前もって感謝します