Java Unicode とエンコーディングの問題を解決できませんでした。問題は、"Steve O#8217Conord and Mirco Savas" や ..."Rusell O’Connell" のような 5,000 以上の文字列があることです。ここで、"#8217" と "’" はアポストロフィに置き換える必要があります。
しかし、このコードにはさまざまなバリエーションがあり、apache.common.lang.StringUtils
Apache ライブラリは問題の解決に役立っていません。最後に。5,000 以上の文字列があるため、どこでも入力することはできません。したがって、正規表現などを使用して文字列内のこれらのシーケンスを見つけてアポストロフィに置き換える方法があれば、喜んで聞いてくれます:)
さらに、「O」のような記号がいくつかあり、UTF8 で読み取る必要があるため、大きな問題になります。(\u8127) などの文字を意味します。何か提案はありますか?