問題タブ [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - grep で PDF を検索するには?
このスレッドのアイデアに従いましたが、うまくいきません。 https://unix.stackexchange.com/questions/6704/how-can-i-grep-in-pdf-files
この本には「フィルター」が少なくとも 100 回は出てくることは確かです。
何か案は?
apache - TIKA を使用して PDF からスタイルとフォーマットを指定してテキストを抽出する
セクションの見出しとその詳細を含む pdf ファイルを持っています。Apache TIKA を使用して、そのスタイルと形式でテキストを抽出するにはどうすればよいですか?
python - スキャンした PDF からのテキスト抽出
私の問題は、たくさんの PDF ファイルがあり、それらをテキスト ファイルに変換したいということです。それらのいくつかは純粋な PDF ですが、中にはページをスキャンしたものもあります。私はpythonでプログラムを書いているので、pdftotextを使ってそれらをTXTに変換しています。
以下のコマンドを使用しています
私が尋ねたいのは、変換前にスキャンされたページをチェックして、pdftotext でゴーストスクリプトコマンドを使用してそれらを操作できるようにする方法があるかどうかです。今のところ、.txt ファイルのサイズをチェックするためのしきい値があり、そのしきい値を下回っている場合は、ghostscript コマンドを使用してそれらを操作しています。
問題は、pdftotext を使用しても、90 ページのうち 50 または 60 ページがスキャンされる大きなサイズのファイルの場合、ファイルのサイズが常にしきい値を超えることです。
linux - xargs を pdftotext コンバーターと結合して複数の pdf ファイル内を検索する方法
ディレクトリ内のすべてのpdfファイル内を検索するスクリプトを作成しています。「pdftotext」という名前の変換されたものを見つけました。これにより、pef ファイルで grep を使用できるようになりますが、1 つのファイルでしか実行できません。ディレクトリに存在するすべてのファイルに対して実行したい場合、失敗します。助言がありますか ?
これは機能します:単一のファイルの場合
これは失敗します:pdfファイルを検索し、テキストに変換してgrepingする場合
java - コマンドは exec() から失敗しますが、端末では機能します
Javaを使用してpdfをtxtに変換しようとしています。Apache PDFBox を試してみましたが、何らかの奇妙な理由で、ドキュメント全体が変換されません。このため、Runtime.getRuntime().exec() 呼び出しを実行して pdftotext を使用することにしました。問題は、私の端末では pdftotext が問題なく動作する一方で、exec() 呼び出しでエラー コード 1 (場合によっては 99) が返されることです。呼び出しは次のとおりです。
これがコードです
PDF2TXT_COMMAND 文字列の定義は次のとおりです。
通常、この種のエラーは権限の設定が原因であることを知っています。したがって、Hello フォルダーに対する ls -l コマンドの出力は次のとおりです。
また、プロセスを作成するユーザーは koldar であり、グループ www-data 自体に属していることにも注意してください。お時間をいただき、ありがとうございました。