1

インターンシップをしている私の友人は、2時間前に、無料のオンラインソフトを使用して.xlsに手動で462pdfファイルを作成することを避けるのを手伝ってくれるかどうか尋ねました。

を使ったシェルスクリプトを考えたのですが、使い方がわからず、ファイルを逆ではなく主にPDFに変換するので、この問題を解決できるunoconvかどうかわかりません。unoconv

4

1 に答える 1

4

PDFから他の構造化形式への変換が常に可能であるとは限らず、一般的には推奨されません。

そうは言っても、これは1回限りの仕事のように見え、かなりの数があります(462)。

それらのほとんどから確実にテキストを抽出でき、それが合理的に構造化されている場合は、追求する価値があります。テーブル構造に確実に解析できるPDFのサンプル全体で通常のテキスト出力を取得しようとするのは問題です。

直接またはOCRベースのテキスト抽出を対象としたツールはたくさんあります。グーグルで検索してください。

私が好きなのは、ghostscriptスイートのpstotextです。この-bboxesオプションを使用すると、各単語の座標を取得して、構造を再構築することができます。その名前にもかかわらず、入力PDFで機能します。欠点は、それが少し不安定になる可能性があり、一部のPDFで機能しますが、他のPDFでは機能しないことです。

ここまで進んだら、おそらくシェルスクリプトまたはプログラムを作成して、それをCSVに変換する必要があります。スプレッドシートを介してこれを直接開くか、これをXLSに変換するツールを探すことができます。

PSまだ行っていない場合は、インターンにPDFの作成に使用された元のデータを取得する方法があるかどうかを尋ねてもらいます。これにより、多くの時間と労力が節約され、より正確な結果が得られます。

更新代わりに、Perl CAM::PDFモジュールに含まれてpstotextいるコマンドを使用します。より堅牢ですが、境界ボックスではなく、テキスト(x、y)の位置を報告するだけです。renderpdf.pl

于 2012-12-13T01:18:57.763 に答える