python - Pythonは壊れたエンコーディングを検出します

Question

多くのウェブサイトをクロールした後、それらのいくつかで私は壊れたエンコーディングデータを受け取ります。私はそれらで何もすることができません、私はそれらを検出する必要があります。たとえば、次のようなテキスト：

・ç¼wÃdª«¦Ê³f

また

ãà³n³¾å¢

そのようなテキストをどのように認識できますか？私はどんな言語でも、英語以外のテキストを検索することはできません。私が考えることができる唯一のオプションは、推測言語モジュールです。

score 2 · Accepted Answer

バイト文字列を受け取り、使用可能なすべてのエンコーディングを試行する関数を持つNLTKがありますが、これはあなたの目的に役立ちますか？guess_encoding

score 1 · Accepted Answer

私が正しく理解していれば、誤ってエンコード/デコードされたテキストを「修復」しようとします。

2 に答える 2