1

多くのウェブサイトをクロールした後、それらのいくつかで私は壊れたエンコーディングデータを受け取ります。私はそれらで何もすることができません、私はそれらを検出する必要があります。たとえば、次のようなテキスト:

・ç¼wÃdª«¦Ê³f

また

ãà³n³¾å¢

そのようなテキストをどのように認識できますか?私はどんな言語でも、英語以外のテキストを検索することはできません。私が考えることができる唯一のオプションは、推測言語モジュールです。

4

2 に答える 2

2

バイト文字列を受け取り、使用可能なすべてのエンコーディングを試行する関数を持つNLTKがありますが、これはあなたの目的に役立ちますか?guess_encoding

于 2012-08-29T21:35:18.017 に答える
1

https://github.com/LuminosoInsight/python-ftfyをご覧ください

私が正しく理解していれば、誤ってエンコード/デコードされたテキストを「修復」しようとします。

于 2012-08-29T21:42:04.630 に答える