Web スクレイピング中に、すべての html タグを削除した後、Unicode で黒い電話文字 \u260e を取得しました (☎)。しかし、この応答とは異なり、私もそれを取り除きたいと思っています。
Scrapy で次の正規表現を使用して、html タグを削除しました。
pattern = re.compile("<.*?>| |&",re.DOTALL|re.M)
それから私は\u260eと一致させようとしましたが、バックスラッシュの疫病にかかったと思います. 私はこのパターンを試してみましたが失敗しました:
pattern = re.compile("<.*?>| |&|\u260e",re.DOTALL|re.M)
pattern = re.compile("<.*?>| |&|\\u260e",re.DOTALL|re.M)
pattern = re.compile("<.*?>| |&|\\\\u260e",re.DOTALL|re.M)
これはどれも機能せず、出力としてまだ\u260eがあります。これどうやったら消えますか?