Scrapy を使用して Web スクレイピングを行っていました。<code>
Web サイトには、次のようなタグの間に json が埋め込まれています。
<code id="content" style="display:none;"><!--{"content": "text1",...,..., "compute": "text2"}--></code>
<code>
xpath を使用して、タグ内のコメントを抽出できました。使用済み:
hxs.select("//code[@id='content']/comment()").extract()
コメント文字をストライピングした後、内容はcontent = "{"content": "text1",...,..., "compute": "text2"}"
json.loads(content) を使用して json を構築しているときに、"ValueError: No JSON object could be decoded"
エラーが発生しました。
また、 str(content) は次をスローします。
"UnicodeEncodeError: 'ascii' codec can't encode characters in position 106512-106513: ordinal not in range(128)"
106512 の値は'\xa7'
前もって感謝します。