文字列内のネストされた引用符に関して、次の問題があります。
jsonブロックの一部として、jsonで許可されている唯一の文字列リミッターである二重引用符を含む文字列がよくあります。私はこのようなことについて話しています(抜粋として、jsonブロックには実際にはもっと多くの要素があります):
{"truncated": false,
"source": "u003Ca href="http: //mobile.twitter.com" rel="nofollow"u003EMobile Webu003C/au003E",
"id_str": "177386775671615488",
"geo": null}
このjsonブロックをPythonで解析しようとしています。明らかに、「source」の値内の余分な二重引用符のために、jsonフォーマットが台無しになります。
残念ながら、これらの混乱した文字列は使用されて入力されているため、ソースに戻って適切なjsonデータを提供するように指示することはできません。一部の実在の人物が二重引用符を含む文字列を入力したことがありますが、この文字列は現在、私のjsonデータでは二重引用符で区切られた文字列として表示されます。データは実際にはTwitterAPIからのものであり、おそらく誰かが同様の問題や経験を持っている可能性があります。Twitterがこれを許可している、またはjsonが破壊されるのを防ぐメカニズムがないことはほとんど想像できません。
私の質問は今です:私のjsonが破壊されないように、文字列内の余分な二重引用符を削除するにはどうすればよいですか?実際には、これらの文字列のデータは必要ありません。jsonブロックの別の部分が必要です。したがって、それらを完全に削除するスマートな方法があれば、それは完璧です。残念ながら、余分な二重引用符はさまざまな場所に表示されるため、「最も外側の引用符のみを削除する」種類のメカニズムを使用することも、ほとんどの場所でjson構文の一部であるためすべての二重引用符を削除することもできません。これを行うための賢いREの方法はありますか?
ご協力いただきありがとうございます!