1

tabula-py を使用して PDF からテーブルを抽出していました。ただし、一部の行が複数行だったテーブルでは、tabula-py では、単一のテーブルの行が DataFrame の複数の行に変換されます。ここでサンプルをあげています。

    Serial No.  Name    Type    Total
0   1   Easter         Multiple    19   
1   2   Costeri        Roundabout  16   
2   3   Zhiop            Tee       16   
3   4   Nesss           Cross      10   
4   5   Uoar Lhahara    Tee        10   
5   6   Trino Nishra (KX) Tee       9   
6   7   Old-FX Box      Cross       8
7   8   Gardeners    Roundabout     8   
8   9   Max Detter   Roundabout     7   
9   NaN Others (Asynco, NaN        NaN  
10  10  D+ E,           Cross       7   
11  NaN etc)            NaN        NaN  

サンプルを見ると、9、10、および 11 インデックスの行が実際には 1 行であることがわかります。表 (pdf) に複数の行がありました。このテーブルには 100 を超える行があり、少なくとも 12 か所でこれらの問題が発生しています。場所によっては 2 列連続で、場所によっては 3 列連続です。これらの行をインデックス値とマージするにはどうすればよいでしょうか?

4

1 に答える 1