私たちのプログラミングチームは現在、Win1252エンコーディングを使用するデータベースを使用していますが、データベースは不良データをネイティブに除外することもあまり得意ではありません。
多くの場合、プログラムのエンドユーザーは、MSWordから情報をコピーして貼り付け、データベースに挿入します。これにより、データベースにあらゆる種類のファンキーな文字が表示され、解釈できない場合があります。
現在、MSWordのネイティブエンコーディングでエンコードされた文字列を解析し、同様のASCII、UTF8、またはWin1252形式に変換するライブラリはありますか?
同様に、「典型的な」のように見える奇妙な二重引用符を翻訳することを意味します。
質問が曖昧な場合はお知らせください。必要に応じて更新します。