0

Pythonでpdfレイアウトアナライザーを作成しようとしています。作業に Pandas を使用して、かなりまともな結果を出すことができました。ただし、これまでJPedalで生成されたデータを使用してきましたが、生成された座標にはかなりの不正確さが含まれているようで、最終結果に影響を与えています. 現時点では、次のような Pandas DF で表されるデータを使用しています。

          font  page           style words   x1   x2   y1   y2
0  Times-Roman     1  font-size:22pt     K  206  214  120  144
1  Times-Roman     1  font-size:22pt     O  226  234  120  144
2  Times-Roman     1  font-size:22pt     H  245  253  120  144

現在、同じ基本属性を含むデータを生成するために pdfminer を使用しようと考えています。私が理解しているように、このデータを取得するには pdfminer レイアウト オブジェクトを使用する必要があります。残念ながら、ドキュメントは少しあいまいです。解決策へのポインタは大歓迎です。

4

1 に答える 1

1

私はプロジェクトで PDFMiner を使用してきました。そのコマンドライン ツールを使用して XML を生成し、そこから座標を使用するだけです。

これにより、個々の文字の座標が取得されます。組み込みの分析がドキュメントで十分に機能することがわからなかったため、そこから独自のレ​​イアウト分析を行っています。

于 2012-08-05T12:16:51.460 に答える