perl - サブフォルダーに含まれる多数の PDF ファイルからテキストを抽出するにはどうすればよいですか?

Question

何千もの PDF ファイルを整理する必要があり、名前も整理も不十分です。それらは 1 つのメインフォルダー内にありますが、さまざまなサブフォルダーに格納されており、そのフォルダー構造を変更することはできません。

私の目的は、すべての PDF のテキストを抽出し、それを 1 つの大きなテキストファイルに追加することです。これは、後のインデックス作成に役立ちます。私のテキストファイルでは、テキストフォルダーにPDFファイルパスと各ページの最後に取得したいと思います@@@@ End of page # 1 @@@@。

テキストドキュメントは次のように始まります。

@@@@ PDF Filepath : $thefilepath @@@@
.... text ....
.... text ....
.... text ....
@@@@ End of page # 1 @@@@
.... text ....
.... text ....
@@@@ End of page # 2 @@@@
@@@ PDF Filepath : $thenextfilepath @@@@
.... text ....
....
....

誰か手を貸してくれませんか？

score 1 · Accepted Answer

最も明白な方法は、サブフォルダーとファイルの名前を取得するために組み込み関数readdirを使用して、単純にファイルをループすることです。ファイルごとに、Perl モジュールまたはコマンドラインユーティリティ ( CAM::PDF、Text::FromAnyまたはpdftotextなど) を使用してテキストを抽出し、PDF ファイルパスおよびページ情報と共に出力テキストファイルに追加します。

perl - サブフォルダーに含まれる多数の PDF ファイルからテキストを抽出するにはどうすればよいですか?

1 に答える 1

Related

Reference