私はひもを持っています。その文字列には二重のバックスラッシュがあります。Unicode char コードを正しく解析できるように、二重のバックスラッシュを単一のバックスラッシュに置き換えたいと考えています。
(Pdb) p fetched_page
'<p style="text-align:center;" align="center"><strong><span style="font-family:\'Times New Roman\', serif;font-size:115%;">Chapter 0<\\/span><\\/strong><\\/p>\n<p><span style="font-family:\'Times New Roman\', serif;font-size:115%;">Chapter 0 in \\u201cDreaming in Code\\u201d give a brief description of programming in its early years and how and why programmers are still struggling today...'
この文字列の内部には、次のようなエスケープされた Unicode 文字コードが含まれています。
\\u201c
これを次のように変えたい:
\u201c
試行 1:
fetched_page.replace('\\\\', '\\')
しかし、これは機能しません。4 つのバックスラッシュを検索します。
試行 2:
fetched_page.replace('\\', '\')
しかし、これは行末エラーになります。
試行 3:
fetched_page.decode('string_escape')
しかし、これはテキストには影響しませんでした。二重バックスラッシュはすべて二重バックスラッシュのままでした。