php - Google経由でPDFからHTMLへ？

翻译自：https://stackoverflow.com/questions/16319324 2013-05-01T13:48:00.017

1321 次

IIHF PDF (例: http://stats.iihf.com/Hydra/349/IHM349131_74_3_0.pdf ) を解析可能な形式にするために長い間試みてきました。

Google のキャッシュにはそこから HTML バージョンが保存されているため ( http://webcache.googleusercontent.com/search?q=cache:http://stats.iihf.com/Hydra/349/IHM349131_74_3_0. pdf ) であり、簡単に解析できます。

唯一の問題は、Google が持っているすべての PDF をキャッシュしているわけではなく、ファイルをキャッシュしたとしても、そこに表示されるまでに数日かかることです。

これらの HTML バージョンを API 経由で、または手動で取得する方法はありますか?

編集:これらの PDF は何らかの形で文字マップが破損しているため、通常の PDF から HTML へのコンバーターでは変換できません。言い忘れました。

0 に答える 0