python - tabula-py を使用して空白のセルを含むテーブルを読み取る

翻译自：https://stackoverflow.com/questions/57986997 2019-09-18T07:11:24.940

932 次

tabula-py を使用して、フォーム 10-K から Python に大きなテーブル (例を添付) をロードしようとしています。テーブルには明確な境界線がなく、空白のセルが多数あるため、いくつかの問題が発生します。

私のコードは

df = tabula.read_pdf("firm_xxx_10K.pdf", pages='100-101',guess=True,stream=True,columns=(144,210,300,340,380,420,450))

ではstream=True、すべてのデータを取得しますが、複数行の情報は別々のエントリとして認識されます。を使用lattice=Trueすると、複数の行を持つセルが 1 つのセルとして正しく認識されますが、多くの観測結果が失われます。

オプションを設定するより良い方法はありますか? 多くのオプションを試しましたが、今は行き詰まっています。どんな助けでも大歓迎です。一番、

0 に答える 0