重複の可能性:
PDF ドキュメントからテキストを抽出する方法は?
問題 / アプリケーション: Apache を実行している Windows 2008 サーバー上で PHP/Java でシステムを構築しています。コンセプトは、ユーザーが PDF ファイルをアップロードすることです。次に、システムがアップロードされた PFD ファイルを分析し、これから設計するアルゴリズムを使用してタイトル/説明を生成するようにします。後で私の検索エンジンは、保存されたタイトル/説明を検索して、検索に関連する PDF を見つけることができます。これにより、検索中に PDF にアクセスすることなく、保存されている PDF ファイルを検索できます。
私が必要としているのは、PDF をテキストに変換し、それを配列または必要なものを取得するために分解できるものに保存するスクリプトまたはコードです。
UNIX/Linux コマンド ライン技術を使用する他のスレッドを見つけました。しかし、Windows 上の Apache サーバーに必要なことを実行できるスクリプトは見つかりませんでした。
これに使用できる提案や代替手法があれば大歓迎です!