IIHF PDF (例: http://stats.iihf.com/Hydra/349/IHM349131_74_3_0.pdf ) を解析可能な形式にするために長い間試みてきました。
Google のキャッシュにはそこから HTML バージョンが保存されているため ( http://webcache.googleusercontent.com/search?q=cache:http://stats.iihf.com/Hydra/349/IHM349131_74_3_0. pdf ) であり、簡単に解析できます。
唯一の問題は、Google が持っているすべての PDF をキャッシュしているわけではなく、ファイルをキャッシュしたとしても、そこに表示されるまでに数日かかることです。
これらの HTML バージョンを API 経由で、または手動で取得する方法はありますか?
編集:これらの PDF は何らかの形で文字マップが破損しているため、通常の PDF から HTML へのコンバーターでは変換できません。言い忘れました。