ドキュメントから HTML タグを削除する効率的で (合理的に) 信頼できる方法が必要です。いくつかのかなり不利な状況を処理できる必要があります。
- ドキュメントに HTML が含まれているかどうかは、事前にはわかりません。
- ほとんどの場合、HTML のフォーマットは非常に貧弱です。
- 個々のドキュメントは非常に大きく、おそらく数百メガバイトになる場合があります。
- HTML 以外のコンテンツには、奇妙な理由でまだ山括弧が散らばっている可能性があるため、 の行に沿った単純な正規表現は使用
<.+/?>
できません。(とにかく、XML を削除することはあまり望ましくありません。)
私は現在、HTML Agility Pack を使用しています。パフォーマンスは思ったよりも悪く、本当にひどい書式設定をできる限り適切に処理できるとは限りません。最近、いくつかの非常に大きなファイルでスタック オーバーフローが発生するという問題に直面しています。
これらの問題はすべて、実際にデータを解析しようとしているという事実に起因していると思われます。そのため、私のニーズにはあまり適合しません。構文ツリーは必要ありません。(ほとんどの) タグをなくしたいだけです。
正規表現の使用は明らかな候補のようです。しかし、この有名な答えを思い出すと、それはそれほど素晴らしいアイデアではないのではないかと心配になります。しかし、そのdiatribeのポイントは解析に非常に焦点を当てており、必ずしもばかげたタグの削除ではありません。この目的のために正規表現はOKですか?
それがひどい考えではないと仮定すると、良い仕事をする正規表現の提案は大歓迎です。