ドキュメントからテキストを取得しようとしたときに、TMやC(著作権)などの特殊文字が続く場合、テキストファイルに書き込んだ後、予期しない追加が行われます。例として、次のことを考えることができます。
持っていてApache™ Hadoop™!
、それを使用してテキストに書き込もうとするとFileOutputStream
、結果は私には意味がないようApacheâ Hadoopâ
になります。一般的に、テキスト内のそのような文字を検出し、それらをスキップして書き込む方法が必要です。解決策はありますか。â
これに?