ダウンロードせずにPHPで解析するために、pdf拡張子を持つURLのコンテンツをテキストに変換するにはどうすればよいですか?
私がこれを行う唯一の方法 (ジャンク文字なし) は、ファイルをサーバー フォルダーにダウンロードし、バイナリをテキストに変換する実行可能ファイルをシェル化することです。
私が見つけた実行可能ライブラリのいくつかを次に示します。 TET、テキスト抽出ツールキット xpdf
最初にpdfをダウンロードせずにURL pdfを変換することをお勧めします(バイナリを開いてから変換するなど)。
PHPでPDFをダウンロードせずにこれを行う方法はありますか?
実行時間を最短にするために推奨される方法は何ですか?
簡単なメモとして、pdf 拡張子を持つ約 64 の URL を実行しますが、これらのすべての URL が実際に pdf を指すわけではありません。実際、これらの URL の一部は、必ずしも pdf ファイルではなく、エイリアスの html ページを指している可能性があるため、変換ツールを使用する前に違いを識別する必要があります。