私のプロジェクトの 1 つは、Web からドキュメントを取得して読み取ります。このドキュメントは第三者によって提供され、変更されません (内容は変更されますが、フォーマットやその他のものは変更されません)。問題は、このドキュメントには、UTF-8 である Word からのコンテンツのコピーと貼り付けが含まれていることですが、ドキュメントは ISO-8858-1 でエンコードされているため、これらの文字は「?」としてデータベースに保存されます。
テキストをパスして UTF-8 で再エンコードすると、スマートクォートと em ダッシュを取得する代わりに、2 つのゴミ文字が取得されます。
この ISO-8859-1 ドキュメントを UTF-8 文字で変換して UTF-8 に戻し、最初に作成されたとおりに表示できるようにするにはどうすればよいですか?