私のC#コードでは、PDFドキュメントからテキストを抽出しています。これを行うと、UTF-8またはUnicodeエンコーディングの文字列が表示されます(どちらかはわかりません)。Encoding.UTF8.GetBytes(src);
これをバイト配列に変換するために使用すると、空白は実際にはバイト値が194と160の2文字であることがわかります。
たとえば、文字列「CLEaction」は次のようになります。
[67, 76, 69, 194 ,160, 65 ,99, 116, 105, 111, 110]
バイト配列では、空白は194と160です...そして、これsrc.IndexOf("CLE action");
が原因で、1を返す必要があるときに-1が返されます。
文字列のエンコーディングを修正するにはどうすればよいですか?