0

ここから Google 検索の履歴をダウンロードしましたが、JSON ファイル (utf-8 でエンコード) の分音記号 (ラテン拡張文字) がめちゃくちゃです。

例えば:

dva na ôsmu

として表示されます

dva na �smu

Sublime Text で JSON intedation パッケージを使用すると、次のようになります。

dva na \ufffdsmu

すべての特殊文字は、この同じ壊れた文字に置き換えられます。これを修正する方法はありますか? Google が壊れた JSON をエクスポートしているだけなので、英語以外のユーザーはこのエクスポートを使用できませんか? 検索で使用された単語の統計を表示するアプリを作成したいのですが、このように壊れた JSON で可能になりました。

4

1 に答える 1

0

JSON が壊れているようです。テキスト バイトを 16 進ダンプで調べたところ、文字は としてエンコードされており0xEFBFBD、これはUnicode 置換文字です。文字は JSON で既に失われており、そこにある文字は置換文字です。

スクリーンショット

于 2015-04-23T13:44:20.260 に答える