0

だから私は時間をかけてデータを抽出しようとしましPyPDF2たが、pdfが似たような構造を持ち、おそらくコンピュータで生成されたように見えたとしても、これはpdf間で信頼できなくなりました。

PyPDF2 について私が気に入った点は、pdf ファイルを通過し、さまざまなオブジェクトからテキストを取得するため、(私が理解できる限り) 文字間のスペースなどを処理する必要がないことextractTextです

一方、ドキュメントによると、キャメロットpdfminerを使用していますが、これは私が理解している限りでは上記を実行しませんが、距離ルールに応じてpdfのさまざまな部分を文字から単語にグループ化しようとします。私が Camelot で経験した問題は、"He l lo World" のような結果が得られることです。

残念ながら、pdf の例をオンラインで共有することはできません

他に共有すると役立つ情報を教えてください

4

1 に答える 1