だから私は時間をかけてデータを抽出しようとしましPyPDF2
たが、pdfが似たような構造を持ち、おそらくコンピュータで生成されたように見えたとしても、これはpdf間で信頼できなくなりました。
PyPDF2 について私が気に入った点は、pdf ファイルを通過し、さまざまなオブジェクトからテキストを取得するため、(私が理解できる限り) 文字間のスペースなどを処理する必要がないことextractText
です。
一方、ドキュメントによると、キャメロットはpdfminerを使用していますが、これは私が理解している限りでは上記を実行しませんが、距離ルールに応じてpdfのさまざまな部分を文字から単語にグループ化しようとします。私が Camelot で経験した問題は、"He l lo World" のような結果が得られることです。
残念ながら、pdf の例をオンラインで共有することはできません
他に共有すると役立つ情報を教えてください