PDFからテーブルを抽出する必要があります。これらのテーブルは、任意のタイプ、複数のヘッダー、垂直ヘッダー、水平ヘッダーなどにすることができます.
私は両方の基本的なユースケースを実装しましたが、すべてのテーブルを完全に検出できないキャメロットよりもタブラの方が少し優れていることがわかりました。すべての種類で機能するかどうかはわかりません。
したがって、同様のユースケースを実装した専門家からの提案を求めてください。
表の実装:
import tabula
tab = tabula.read_pdf('pdfs/PDF1.pdf', pages='all')
for t in tab:
print(t, "\n=========================\n")
キャメロットの実装:
import camelot
tables = camelot.read_pdf('pdfs/PDF1.pdf', pages='all', split_text=True)
tables
for tabs in tables:
print(tabs.df, "\n=================================\n")