私がやろうとしていること: データベースからURIのリストを取得してダウンロードし、ストップワードを削除して、その単語がWebページに表示される頻度を数え、mongodbに保存しようとしています。
問題: 結果をデータベースに保存しようとすると、エラーbson.errors.invalidDocumentが発生します:ドキュメントは有効なutf-8である必要があります
ウェブページを処理しているときに、コード'\ xc3someotherstrangewords'、'\ xe2something'に関連しているようですが、句読点を削除しようとしていますが、間違った単語が表示されるため、アクセントを削除できません。
私がすでに試し たこと私は試したウェブページからのヘッダーを通してcharエンコードを識別しようとしましたchardetを利用してみました
re.compile(r "[^ a-zA-Z]")および/またはunicode(variable、'ascii'、'ignore');を利用します。
英語以外の言語ではアクセントが削除されるため、これは適切ではありません。
私が知りたい
のは
、文字を識別して正しい単語/エンコードに変換する方法を知っている人はいますか?
たとえば、これをWebページ'\ xe2'から取得し、'â'に翻訳します。
(英語は私の母国語ではないので許してください)編集:誰かがソースコードを見たい場合