文字「�」はU+FFFD REPLACEMENT CHARACTERであり、文字レベルのデータエラーを示します。参照:Unicode標準、ch。16、16.8節。
今日では、ほとんどの場合、一部のデータに、適用されている文字エンコードに意味のないバイトが含まれていることを示しているように見えます。したがって、何らかの理由で正しくない文字や表示できない文字ではなく、有効な文字データがないことを示します。
典型的な状況は、Latin1でエンコードされたデータがUTF-8でエンコードされたものとして解釈されていることです。あなたの例では、「スマート」な引用符、アポストロフィ、おそらくダッシュなど、Ascii以外のすべての文字が「�」になっているようです。データ自体が正しい可能性は十分にあります。間違っているのは、そのエンコーディングに関する情報だけです。プログラム設定でエンコード(データの解釈に応じて)を変更できる場合は、UTF-8を試してみるとおそらく役に立ちます。
文字「�」は、データが1つのエンコーディングから別のエンコーディングに変換され、ターゲットエンコーディングで表現されていない文字がデータにある場合にも表示されることがあります。この場合、元のデータは失われているため、情報を復元するには、推測するか、元のエンコードされたデータに戻る必要があります。