問題タブ [python-camelot]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 問題

0 投票する

1 に答える

51 参照

python - camelot は pdf の「プリミティブ」を使用してデータを抽出できますか?

だから私は時間をかけてデータを抽出しようとしましPyPDF2たが、pdfが似たような構造を持ち、おそらくコンピュータで生成されたように見えたとしても、これはpdf間で信頼できなくなりました。

PyPDF2 について私が気に入った点は、pdf ファイルを通過し、さまざまなオブジェクトからテキストを取得するため、(私が理解できる限り) 文字間のスペースなどを処理する必要がないことextractTextです。

一方、ドキュメントによると、キャメロットはpdfminerを使用していますが、これは私が理解している限りでは上記を実行しませんが、距離ルールに応じてpdfのさまざまな部分を文字から単語にグループ化しようとします。私が Camelot で経験した問題は、"He l lo World" のような結果が得られることです。

残念ながら、pdf の例をオンラインで共有することはできません

他に共有すると役立つ情報を教えてください

2021-03-14T02:10:44.480

0 投票する

0 に答える

33 参照

python - tables.export() 内に新しい行を追加する方法はありますか

そこで、キャメロット (pip install camelot) を使用して pdf ファイルからテーブルを読み取る小さなプロジェクトを実行しました

これは私の出力ですが、もっと目を引く出力が必要です

python python-camelot

2021-03-16T09:23:38.947

0 投票する

1 に答える

166 参照

pandas - ループからテーブルを連結するとエラーが発生する - InvalidIndexError: 一意に値付けされた Index オブジェクトでのみ有効な再インデックス付け

ループから作成されたテーブルを連結する必要があります。列に名前の繰り返しがありますが、それらは別の話をしていますが、何らかの理由でこのコードを実行するとエラーが発生します:

コードは次のとおりです。

ここに私が得ているエラーがあります:

pandas dataframe loops concatenation python-camelot

2021-04-23T21:11:26.860

1 2 3 4 5 6 7 8 9 10

問題タブ [python-camelot]

python - camelot は pdf の「プリミティブ」を使用してデータを抽出できますか?

python - tables.export() 内に新しい行を追加する方法はありますか

pandas - ループからテーブルを連結するとエラーが発生する - InvalidIndexError: 一意に値付けされた Index オブジェクトでのみ有効な再インデックス付け

Reference