tabula-py を使用して、フォーム 10-K から Python に大きなテーブル (例を添付) をロードしようとしています。テーブルには明確な境界線がなく、空白のセルが多数あるため、いくつかの問題が発生します。
私のコードは
df = tabula.read_pdf("firm_xxx_10K.pdf", pages='100-101',guess=True,stream=True,columns=(144,210,300,340,380,420,450))
ではstream=True
、すべてのデータを取得しますが、複数行の情報は別々のエントリとして認識されます。を使用lattice=True
すると、複数の行を持つセルが 1 つのセルとして正しく認識されますが、多くの観測結果が失われます。
オプションを設定するより良い方法はありますか? 多くのオプションを試しましたが、今は行き詰まっています。どんな助けでも大歓迎です。一番、