python - camelot は pdf の「プリミティブ」を使用してデータを抽出できますか?

翻译自：https://stackoverflow.com/questions/66620449 2021-03-14T02:10:44.480

51 次

だから私は時間をかけてデータを抽出しようとしましPyPDF2たが、pdfが似たような構造を持ち、おそらくコンピュータで生成されたように見えたとしても、これはpdf間で信頼できなくなりました。

PyPDF2 について私が気に入った点は、pdf ファイルを通過し、さまざまなオブジェクトからテキストを取得するため、(私が理解できる限り) 文字間のスペースなどを処理する必要がないことextractTextです。

一方、ドキュメントによると、キャメロットはpdfminerを使用していますが、これは私が理解している限りでは上記を実行しませんが、距離ルールに応じてpdfのさまざまな部分を文字から単語にグループ化しようとします。私が Camelot で経験した問題は、"He l lo World" のような結果が得られることです。

残念ながら、pdf の例をオンラインで共有することはできません

他に共有すると役立つ情報を教えてください

python - camelot は pdf の「プリミティブ」を使用してデータを抽出できますか?

1 に答える 1

Related

Reference