Perl バージョン 5.8.8 を使用しています。Unicode (UTF-8) をサポートしていると思いますが、信頼できるとは確信していません。Perl 5.8.8 を使用してデータを処理および保存する最適なオプションは何ですか? HTMLエンティティと実際のUnicodeの処理はどうですか? 非常に大きなドキュメントを処理します。現在、多くの機能を動作させるために、一部の Unicode をフィルタリング/置換し、html 資格として一定でないエンコーディングを行い、一部のコードはパススルーされますが、一致をエスケープし、修正が必要な多くのバグ修正をもたらします。一つずつ。見過ごされているものもあるでしょう。私はこれがちょっと苦手なタイプです。
これまでの私の考えでは、Unicode 文字を入力するのは面倒で、拡張句読点文字はエンティティよりも視覚的に区別するのが難しいということです。最後に、Unicode の取り扱いについて読みましたが、最新の Perl バージョンを使用する新しいプロジェクトには適しているかもしれませんが、レトロフィットが難しいため、スクリプトを使用して html エンティティに正規化する方が良い選択肢のように思えます。一方、国境のコードまたはスクリプトはとにかく Unicode を使用する必要があります。JavaScript の機能には影響しないと思います。これらのエンティティはすぐに Unicode 文字に変換され、DOM のテキスト ノードの通常の要素になると思います。
Unicodeおよびhtml エンティティの使用を一貫して正規化する lib またはスクリプトはありますか? エンティティの場合、名前付きエンティティの短い辞書を使用してそのスペース内で正規化し、残りのデフォルトを数値にする必要があります。それは別のステップであり、比較的簡単です。その他の手順として、入力スクリプトを変更して Perl コードを正規化し、複数のオプションを持つダッシュや引用符などの要素に一致するイディオムをいくつか作成します。