0

何千もの PDF ファイルを整理する必要があり、名前も整理も不十分です。それらは 1 つのメイン フォルダー内にありますが、さまざまなサブフォルダーに格納されており、そのフォルダー構造を変更することはできません。

私の目的は、すべての PDF のテキストを抽出し、それを 1 つの大きなテキスト ファイルに追加することです。これは、後のインデックス作成に役立ちます。私のテキストファイルでは、テキストフォルダーにPDFファイルパスと各ページの最後に取得したいと思います@@@@ End of page # 1 @@@@

テキスト ドキュメントは次のように始まります。

@@@@ PDF Filepath : $thefilepath @@@@
.... text ....
.... text ....
.... text ....
@@@@ End of page # 1 @@@@
.... text ....
.... text ....
@@@@ End of page # 2 @@@@
@@@ PDF Filepath : $thenextfilepath @@@@
.... text ....
....
....

誰か手を貸してくれませんか?

4

1 に答える 1

1

最も明白な方法は、サブフォルダーとファイルの名前を取得するために組み込み関数readdirを使用して、単純にファイルをループすることです。ファイルごとに、Perl モジュールまたはコマンドライン ユーティリティ ( CAM::PDFText::FromAnyまたはpdftotextなど) を使用してテキストを抽出し、PDF ファイル パスおよびページ情報と共に出力テキスト ファイルに追加します。

于 2012-05-18T20:42:29.423 に答える