2

私はPDFを持っており、テキストのみで構成されており、特殊文字や画像などはありません。各ページを1行ずつ解析するのに役立つPerlモジュールはありますか(cpanを見て無駄になっています)。(PDFをテキストに変換すると、悪い結果と解析できないデータが生成されます)

ありがとう、

4

1 に答える 1

6

PDFからテキストを抽出したい場合は、出力オプションを使用して( Popplerpdftohtmlの一部)にテキストをフィードします。これにより、 XML :: Twig(またはXML :: Simple以外の任意のXMLパーサー)を使用して解析するXMLファイルが生成されます。-xml

XML形式はかなり単純です。<page>PDFの各ページの要素を取得します。この要素に<fontspec>は、使用されているフォントを説明する<text>要素と、テキストの各行の要素が含まれています。要素には、太字および斜体のテキストのタグ<text>が含まれている場合が<b>あり<i>ます(これが、XML :: Simpleが適切に解析できない理由です)。

topタグの属性とleft属性を使用<text>して正しい順序で取得する必要があります。これは、タグが必ずしも上から下の順序で発行されるとは限らないためです。座標系では、ページの左上隅に0,0があり、下と右が正です。寸法はPostScriptポイント(1インチあたり72ポイント)です。

于 2011-02-16T22:39:40.617 に答える