2

私はmysqlデータベースに保存できるように、pdfファイルからすべてのテキストを抽出するphpのクラスを利用できますか?私のpdfには、画像、表、プレーンテキスト、フォーム要素、グラフなどの多くの要素があります.

これまでのところ、過去2日間、テキストを抽出する多くのクラスを見ましたが、完全なテキスト抽出を容易にする人は誰もいません.pdfから完全なテキストを抽出していません.

テキストが表などにある場合でも、特定のpdfファイルからすべてのテキストを抽出したい.

これについて知っている人はいますか?:)

どうもありがとう。良い1日を :)

4

3 に答える 3

0

多くのコマンド ライン プログラムをテストしましたが、100% の結果が得られたものはありません。だから私はPHPで自分のライブラリを始めました:

https://github.com/smalot/pdfparser

現在はテキスト指向ですが、画像のサポートが計画されています。

問題が発生した場合は、PDF と、可能であれば作成方法をお送りいただきありがとうございます。

于 2013-09-02T21:58:38.230 に答える
0

これを Linux サーバーで実行している場合は、apdf2textを使用してexecを介して呼び出し、出力ファイルの内容を取得することができます。

PDF からテキストへのスクリプトがいくつか存在し、すべてとは異なるマイレージが得られることに注意してください。

于 2011-06-29T13:12:12.330 に答える
0

以下のURLを見つけて、

PHP で PDF からクリーン テキストを読み取る

于 2011-06-29T13:16:57.250 に答える