何千もの PDF ファイルを整理する必要があり、名前も整理も不十分です。それらは 1 つのメイン フォルダー内にありますが、さまざまなサブフォルダーに格納されており、そのフォルダー構造を変更することはできません。
私の目的は、すべての PDF のテキストを抽出し、それを 1 つの大きなテキスト ファイルに追加することです。これは、後のインデックス作成に役立ちます。私のテキストファイルでは、テキストフォルダーにPDFファイルパスと各ページの最後に取得したいと思います@@@@ End of page # 1 @@@@
。
テキスト ドキュメントは次のように始まります。
@@@@ PDF Filepath : $thefilepath @@@@
.... text ....
.... text ....
.... text ....
@@@@ End of page # 1 @@@@
.... text ....
.... text ....
@@@@ End of page # 2 @@@@
@@@ PDF Filepath : $thenextfilepath @@@@
.... text ....
....
....
誰か手を貸してくれませんか?