私は、あなたが遭遇する最悪の HTML 製品説明を移行する任務を負っています。表と段落の混合で構成されています。大部分は 100% 有効な HTML ではなく、MS Word のおかげで Microsoft タグがたくさんあります。インラインスタイルのタグが散らばっていて、そのほとんどは、これまでに見たことのない最も気の利いた CSS ルールのセットに依存しています。
本質的に、私は、使用できるのはテキストの段落だけであることに気づきました。<p>
段落でタグが使用されていない場合や、タイトルや単語に独自のタグが付いている場合があるため、タグを取得することはできません<p>
。
だから私の質問は、HTMLタグ間でx文字より長いテキストを一致させることができますか?
理想的には、それも無視<br/>
し、<br>
ここに私が扱っているhtmlの例へのリンクがあります
ページ全体ではなく、処理中の説明のみであることに注意してください。