tabula-py を使用して PDF からテーブルを抽出していました。ただし、一部の行が複数行だったテーブルでは、tabula-py では、単一のテーブルの行が DataFrame の複数の行に変換されます。ここでサンプルをあげています。
Serial No. Name Type Total
0 1 Easter Multiple 19
1 2 Costeri Roundabout 16
2 3 Zhiop Tee 16
3 4 Nesss Cross 10
4 5 Uoar Lhahara Tee 10
5 6 Trino Nishra (KX) Tee 9
6 7 Old-FX Box Cross 8
7 8 Gardeners Roundabout 8
8 9 Max Detter Roundabout 7
9 NaN Others (Asynco, NaN NaN
10 10 D+ E, Cross 7
11 NaN etc) NaN NaN
サンプルを見ると、9、10、および 11 インデックスの行が実際には 1 行であることがわかります。表 (pdf) に複数の行がありました。このテーブルには 100 を超える行があり、少なくとも 12 か所でこれらの問題が発生しています。場所によっては 2 列連続で、場所によっては 3 列連続です。これらの行をインデックス値とマージするにはどうすればよいでしょうか?