私は (大きな) 本文のテキストを持っており、それを元の Web フレンドリーな形式から「わずかに」より制限的な形式 (epub -- 一部の読者は、取り込む HTML について非常にうるさい) に変換しようと取り組んでいます。 .
HTML purifier は、私が「悪いコーディング」と呼ぶ 1 つのクラスの問題に対して素晴らしく機能しています。閉じ括弧 (技術的には正当な HTML) の欠落や、ブラウザが自動的に回避するその他の煩わしさなどがあります。
HTML purifier がうまく機能しないのは、エンコーディングの問題が発生したときです。多くのキャラクターは Ӓ 形式で保存されています。(どうやら?) HTML purifier が気にしない形式です。多分私はそれをより良く設定する必要があるだけです。もう 1 つの問題は、私の存在の悩みの種です。カーリー クォーテーション、EM ダッシュなどです。私はこれらの問題の多くについて大規模な検索と置換を行うことができましたが、私が懸念しているのは、どこかで文字を見逃している可能性があることです (アクセントと墓標も含む)。
HTML purifier に、そのような文字に問題があったことを通知せずに取り除く方法はありますか? 私はコードを調べようとしていますが、ソフトウェアは別のユースケース シナリオ (プログラマーがテキスト本文で大量変換を行うのではなく、ユーザー入力を「静かに」処理する) 向けに非常に設計されており、私はただ探しているデータが表示されません。