問題タブ [python-camelot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - camelot は pdf の「プリミティブ」を使用してデータを抽出できますか?
だから私は時間をかけてデータを抽出しようとしましPyPDF2
たが、pdfが似たような構造を持ち、おそらくコンピュータで生成されたように見えたとしても、これはpdf間で信頼できなくなりました。
PyPDF2 について私が気に入った点は、pdf ファイルを通過し、さまざまなオブジェクトからテキストを取得するため、(私が理解できる限り) 文字間のスペースなどを処理する必要がないことextractText
です。
一方、ドキュメントによると、キャメロットはpdfminerを使用していますが、これは私が理解している限りでは上記を実行しませんが、距離ルールに応じてpdfのさまざまな部分を文字から単語にグループ化しようとします。私が Camelot で経験した問題は、"He l lo World" のような結果が得られることです。
残念ながら、pdf の例をオンラインで共有することはできません
他に共有すると役立つ情報を教えてください
python - tables.export() 内に新しい行を追加する方法はありますか
そこで、キャメロット (pip install camelot) を使用して pdf ファイルからテーブルを読み取る小さなプロジェクトを実行しました
これは私の出力ですが、もっと目を引く出力が必要です
pandas - ループからテーブルを連結するとエラーが発生する - InvalidIndexError: 一意に値付けされた Index オブジェクトでのみ有効な再インデックス付け
ループから作成されたテーブルを連結する必要があります。列に名前の繰り返しがありますが、それらは別の話をしていますが、何らかの理由でこのコードを実行するとエラーが発生します:
コードは次のとおりです。
ここに私が得ているエラーがあります: