多くのウェブサイトをクロールした後、それらのいくつかで私は壊れたエンコーディングデータを受け取ります。私はそれらで何もすることができません、私はそれらを検出する必要があります。たとえば、次のようなテキスト:
・ç¼wÃdª«¦Ê³f
また
ãà³n³¾å¢
そのようなテキストをどのように認識できますか?私はどんな言語でも、英語以外のテキストを検索することはできません。私が考えることができる唯一のオプションは、推測言語モジュールです。
バイト文字列を受け取り、使用可能なすべてのエンコーディングを試行する関数を持つNLTKがありますが、これはあなたの目的に役立ちますか?guess_encoding
https://github.com/LuminosoInsight/python-ftfyをご覧ください
私が正しく理解していれば、誤ってエンコード/デコードされたテキストを「修復」しようとします。