(同じ)データをGIF画像ファイルとPDFファイルとして保存していて、それをHTMLまたはXMLに解析したいと思います。データは実際には私の大学のカフェテリアのメニューです。これは、毎週解析する必要のあるファイルの新しいバージョンがあることを意味します。一般に、ファイルにはいくつかのヘッダーとフッターのテキスト、およびその間に他のデータでいっぱいのテーブルが含まれています。私はstackoverflowに関するいくつかの投稿を読み、テーブルデータをHTML/XMLとして解析する試みも開始しました。
- PDFBox || iText(Java)
- Googleドキュメントのインポート
- PDF2HTML || PDF2Table
GIF
- Tesseract-OCR
PDFBoxを使用してPDFファイルを解析することで最良の結果が得られましたが、それでも(メニューは毎週変更されるため)、十分な信頼性はありません。私が受け取るHTMLには、「段落」(<p>
)が含まれている場合と少ない場合があるため、データの精度を十分に解析できません。
それで、他の方法があるかどうか知りたいのですが?