元のエンコーディングを使用すると、保存したファイルが正しく表示されないという問題があります。
Web ページをダウンロードして、必要なコンテンツを検索し、そのコンテンツをファイルに書き込んでいます。
サイトのエンコーディングは 'iso-8859-1' か、クロムと美しいスープが教えてくれます。元のサイトでそのエンコーディングを使用して表示すると、完全に表示されます。
ページをダウンロードして表示しようとすると、次のような奇妙な文字 (HTML エンティティ?) が表示されます。
“ , ’
保存したページを表示するときに Chrome のエンコーディングを手動で「Utf-8」に設定すると、元のページと同様に「Utf-8」に設定すると正常に表示されます。
これをどうすればよいかわかりません。テキストをファイルに書き込む前にエンコーディングを変更しますが、それを試みるとASCIIエラーが発生します。
サンプル ページは次のとおりです (アダルト コンテンツの可能性があります)。
http://original.adultfanfiction.net/story.php?no=600106516
そして、ページからテキストを取得するために使用しているコード:
site = requests.post(url, allow_redirects=False)
html = site.text
soup = BeautifulSoup(html)
rawStory = soup.findAll("td",{"colspan" : '3'})
story = str(rawStory)
return story
ResultSet を文字列に変換して、ファイルに書き込むことができるようにします。それが問題の一部であるかどうかはわかりません。html を要求した後、何かを実行する前にコンソールに出力すると、それが表示されます。コンソールでも不適切です。