PDF から HTML へのソリューション、およびクラウドまたは SDK 形式の OCR サービスを探しています。検索した結果、インターネットにはたくさんのサービスがあることがわかりました。それらのいくつかを試してみて、いくつかのアイデアを得ました。このようなサービスを利用している方がいらっしゃいましたら教えていただきたいです。
私の最大の関心事は、情報抽出で使用できる HTML 出力を持つ自動化構造を持つことです。テーブルのような構造化データを出力したい。(ほとんどのサービスは、-character 形式 (各文字の CSS/HTML タグ) または -paragraph 形式 (各行の CSS/HTML) で HTML 出力を提供します。
私はこれまでにチェックしました:
- Abbyy Cloud SDK (彼らには PDF から HTML へのサービスはありませんが、XSLT サポートを使用して HTML に変換できる PDF から XML へのサービスはありません (おそらく)。テキスト出力を備えた OCR サービスも非常に優れています)
- cloudconvert.org (poppler-Xpdf3.0 に基づく Ubuntu pdftohtml コマンドと同じ結果を提供しています)
- pdftohtml コマンド (Ubuntu でテスト済み) - < p > でいっぱいの結果が得られました。
- aspose.PDF (クラウドに PDF から HTML へのサービスはありませんが、GDrive、Dropbox、Amazon s3 との統合は良好です。
- PDFTron の PdfNET : CSS と HTML の構造が複雑で、ほぼ 1 文字あたりのタグで結果が得られました。
私の質問は、データ抽出のために構造的な HTML 出力を試して取得する価値のある他のサービスを知っているかどうかです。
前もって感謝します。