次のコードで API を使用して、ウィキペディアのコンテンツ (ブルガリア語) を取得しようとしています。
$content = file_get_contents("http://bg.wikipedia.org/w/api.php?format=json&action=query&titles=%D0%A1%D0%BE%D1%84%D0%B8%D1%8F&prop=revisions&rvprop=content");
問題は、結果が次のようになることです。
........."*":"{{\u043a\u044a\u043c \u043f\u043e\u044f\u0441\u043d\u0435\u043d\u0438\u0435|\u0421\u043e\u0444\u0438\u044f|\u0421\u043e\u0444\u0438\u044f (\u043f\u043e\u044f\u0441\u043d\u0435\u043d\u0438\u0435)}}\n{{\u0421\u0435\u043b\u0438\u0449\u0435 \u0432 \u0411\u044a\u043b\u0433\u0430\u0440\u0438\u044f\n|
ブラウザでリンクを開いても、この結果が得られます。JSON を XML に変更すると問題なく動作しますが、形式が JSON の場合、コンテンツは「判読不能」になります。
読みやすいテキストを取得するにはどうすればよいですか? または、ウィキペディアのコンテンツで段落を解析するための他の簡単な解決策はありますか?