100000 個の非常に古い HTML ドキュメントを Web アプリケーションに配置する必要があります。OWASP HTML Sanitizer の使用中に大きな効果が見られ、適切にサニタイズされた HTML が作成されることを確認できました。私の唯一の問題は、HTML Sanitizer が行の最大長に厳しい制限を設けていることです。正確には、これは 1 行あたり最大 250 バイトです。残念ながら、これには一部の単語が途中で分割されるという影響があり、これは表示された html (キャレットでマークされています) と同じです:
This sentence here is perfectly ok. But in the next s entence there is an additional space in the word "sentence".
^
サニタイザーにラインをすぐに終了させないようにするにはどうすればよいですか?
元の html の一部の行は 800 バイト以上であるため、サニタイザーに空白に区切りを挿入するように指示できれば、それも役に立ちます。