私は Tabula を使用して PDF を CSV ファイルに変換することに多くの成功を収めてきましたが、この特定の 1 つがあらゆる種類の問題を引き起こしています。ファイルはここにあります。
複数の行スパンが Tabula の問題を引き起こしているようです。Tabula がファイルを完全に変換するとは思わず、後処理のクリーンアップ (通常はいくつかの sed コマンド) を行う必要があると予想しますが、出発点となる CSV ファイルの作成にはまだ近づいていません。 . スプレッドシート、スプレッドシートなし、推測、列、および領域を試しましたが、成功しませんでした。何を試すべきかについて他に考えがある人はいますか?