0

重複の可能性:
PDF ドキュメントからテキストを抽出する方法は?

問題 / アプリケーション: Apache を実行している Windows 2008 サーバー上で PHP/Java でシステムを構築しています。コンセプトは、ユーザーが PDF ファイルをアップロードすることです。次に、システムがアップロードされた PFD ファイルを分析し、これから設計するアルゴリズムを使用してタイトル/説明を生成するようにします。後で私の検索エンジンは、保存されたタイトル/説明を検索して、検索に関連する PDF を見つけることができます。これにより、検索中に PDF にアクセスすることなく、保存されている PDF ファイルを検索できます。

私が必要としているのは、PDF をテキストに変換し、それを配列または必要なものを取得するために分解できるものに保存するスクリプトまたはコードです。

UNIX/Linux コマンド ライン技術を使用する他のスレッドを見つけました。しかし、Windows 上の Apache サーバーに必要なことを実行できるスクリプトは見つかりませんでした。

これに使用できる提案や代替手法があれば大歓迎です!

4

1 に答える 1

0

PDF ファイルのプレーン テキストへの変換は、特にソースが複数列の場合に、テキストが (2 次元サーフェス上の描画命令として) ファイル内で表現される方法が原因で問題が発生します。

使用できるオープン ソース ツールとプロプライエタリ ツールの両方が多数ありますが、それらすべてを調べた結果、すべてのケースで機能するツールはないと自信を持って断言できます。「PDF からテキストへの変換」を Google で検索すると、それらのほとんどが表示されます。

また、SOLR や elastic-search など、PDF 変換が組み込まれたテキスト検索エンジンの使用を検討することもできます。どちらもオープン ソースであり、Apache Lucene に基づいています。繰り返しになりますが、Google で検索すると、それぞれのホームページが表示されます。

于 2012-11-16T18:03:42.650 に答える