0

このトピックについては複数の議論があったことは知っていますが、そのうちの 1 つに次のようなものがあります: HTML エンコーディングの問題 - 「 」ではなく「Â」文字が表示される

私はそれに従いましたが、「メタ文字セット」タグをhtmlに追加せずにこれを解決したいのですが、実際にはヘッダーからすべてのタグを削除しています(Nokogiriにはいくつかの問題があります)。出力からこれらのÂを削除するために使用できる正規表現はありますか? 出力を「csv」に投げていますが、csv ファイルでこれらの Â を確認できます。

ありがとう!

4

1 に答える 1

3

UTF-8 でエンコードされたドキュメントが ISO-8859-1 として解釈されるという問題を修正する場合は、UTF-8 でエンコードされた形式の Unicode 文字 (合計で約 100,000) をマップする正規表現を記述するだけで済みます。正しい文字。明らかに、これは最初から悪い考えです。

于 2013-09-25T15:39:41.263 に答える