文字列である属性があります。
典型的な値は<p>foo — that's an em dash</p>
.
これを に変換する必要があり<p>foo — that's an em dash</p>
ます。
つまり、HTML タグは変更せずに、エンコードされていないエンティティをエンコードする必要があります。理想的には、出力がutf-8
.
これは、この種のエラーが繰り返されるのを防ぐためです。
Encoding::UndefinedConversionError: "\xE2" from ASCII-8BIT to UTF-8 - 0 failed attempts
gsub
、 、のさまざまな化身を試しましたが、うまくforce_encoding
いきNokogiri
ませんでした。おそらく、これらの1つは正しい方向への一歩でしたが、すべてを正しく行ったわけではありませんか?
私は何をすべきか?