3

クライアント側で任意のブラウザを使用して、javascriptのみを使用してpdfファイルからデータを抽出するにはどうすればよいですか?

4

2 に答える 2

2

pdf.js は JavaScript pdf リーダーです: http://mozilla.github.com/pdf.js/

いくつかの同様のプロジェクト:

ファイルをロードする方法を尋ねている場合、これは ajax リクエストを介して行うことができますが、ファイルの内容を直接読み取ることはできません。

于 2012-12-13T23:43:04.013 に答える
-1

あなたが求めていることは事実上不可能です。

PDF は、さらに処理するためではなく、大規模で複雑なドキュメントを効率的に表示するために最適化された重量のある形式です。(実際、PDF ドキュメントは主に、ページ上に絶対的に配置された文字の形やその他のグラフィックで構成されています。「テキストの段落」を表すデータは、タグ付き PDF のオプション機能です。)

テキスト抽出は (通常は高価な) PDF ライブラリの機能である傾向があり、私の知る限り、Javascript 用のそのようなライブラリは存在しません。Scribd と Google Docs はこれを行っていますが、おそらくその方法を共有していません。私の推測では、サーバー側でこれを行っているのでしょう。

tl;dr:形式としての PDF は、これにはひどいものです。基本的に、アプリケーションの要点が PDF からテキストを抽出することでない限り、それを行う必要がない方法を見つけることに時間を費やす方がよいでしょう。

于 2012-12-13T23:32:07.090 に答える