Pythonでpdfレイアウトアナライザーを作成しようとしています。作業に Pandas を使用して、かなりまともな結果を出すことができました。ただし、これまでJPedalで生成されたデータを使用してきましたが、生成された座標にはかなりの不正確さが含まれているようで、最終結果に影響を与えています. 現時点では、次のような Pandas DF で表されるデータを使用しています。
font page style words x1 x2 y1 y2
0 Times-Roman 1 font-size:22pt K 206 214 120 144
1 Times-Roman 1 font-size:22pt O 226 234 120 144
2 Times-Roman 1 font-size:22pt H 245 253 120 144
現在、同じ基本属性を含むデータを生成するために pdfminer を使用しようと考えています。私が理解しているように、このデータを取得するには pdfminer レイアウト オブジェクトを使用する必要があります。残念ながら、ドキュメントは少しあいまいです。解決策へのポインタは大歓迎です。