問題タブ [python-camelot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
51 参照

python - camelot は pdf の「プリミティブ」を使用してデータを抽出できますか?

だから私は時間をかけてデータを抽出しようとしましPyPDF2たが、pdfが似たような構造を持ち、おそらくコンピュータで生成されたように見えたとしても、これはpdf間で信頼できなくなりました。

PyPDF2 について私が気に入った点は、pdf ファイルを通過し、さまざまなオブジェクトからテキストを取得するため、(私が理解できる限り) 文字間のスペースなどを処理する必要がないことextractTextです

一方、ドキュメントによると、キャメロットpdfminerを使用していますが、これは私が理解している限りでは上記を実行しませんが、距離ルールに応じてpdfのさまざまな部分を文字から単語にグループ化しようとします。私が Camelot で経験した問題は、"He l lo World" のような結果が得られることです。

残念ながら、pdf の例をオンラインで共有することはできません

他に共有すると役立つ情報を教えてください

0 投票する
0 に答える
33 参照

python - tables.export() 内に新しい行を追加する方法はありますか

そこで、キャメロット (pip install camelot) を使用して pdf ファイルからテーブルを読み取る小さなプロジェクトを実行しました

これは私の出力ですが、もっと目を引く出力が必要です

0 投票する
1 に答える
166 参照

pandas - ループからテーブルを連結するとエラーが発生する - InvalidIndexError: 一意に値付けされた Index オブジェクトでのみ有効な再インデックス付け

ループから作成されたテーブルを連結する必要があります。列に名前の繰り返しがありますが、それらは別の話をしていますが、何らかの理由でこのコードを実行するとエラーが発生します:

コードは次のとおりです。

ここに私が得ているエラーがあります: