これは私の分野ではないので、このスタックの範囲外であれば申し訳ありません。
いくつかの操作を経て匿名化された調査データ (ダウンロード、9MB ) をクリーンアップ (個人の娯楽および他のユーザーと共有するための視覚化) して公開しています。
質問の 1 つは、時給に関するもので、自由形式のテキストによる回答が許可されていました。これらの回答のいくつかは、ひどく壊れた文字になりました.2つの最も一般的なケースは、下の画像に示されています:
私はそれらの答えを破棄したくありませんが、それらを意味のある状態に戻す方法がわかりません。
より良いデータ ダンプを求める - 関連する人々にそれについてつつきましたが、期待しすぎませんでした。
どのキャラクターがこのようになったかを判断してください。エンコーディングの処理は常に面倒で、これまで見たことのない壊れた文字のようには見えません。そのため、どこから始めればよいのか、これを支援するツールがあるかどうかわかりません。それは有効な文字や通貨記号でさえないかもしれません。
壊れた文字を有効な通貨文字に一致させてください。調査が英語圏の国に偏っていたことを考えると、2 つのうちの 1 つは € の文字であり、もう 1 つは £ の文字である可能性があると強く思います。ただし、他の回答に対する相対的な文字数によって、そのような推測を確実にバックアップすることはできますか? 残念ながら、地理データが提供されていないため、回答を国に一致させることができません。