javascript - javascriptのみを使用してpdfファイルからテキストを抽出する

Question

クライアント側で任意のブラウザを使用して、javascriptのみを使用してpdfファイルからデータを抽出するにはどうすればよいですか?

score 2 · Accepted Answer

pdf.js は JavaScript pdf リーダーです: http://mozilla.github.com/pdf.js/

いくつかの同様のプロジェクト:

docx および xlsx の場合: http://blog.innovatejs.com/?p=184
jsPDF は PDF ジェネレーターです: https://github.com/MrRio/jsPDF

ファイルをロードする方法を尋ねている場合、これは ajax リクエストを介して行うことができますが、ファイルの内容を直接読み取ることはできません。

score -1 · Accepted Answer

あなたが求めていることは事実上不可能です。

PDF は、さらに処理するためではなく、大規模で複雑なドキュメントを効率的に表示するために最適化された重量のある形式です。(実際、PDF ドキュメントは主に、ページ上に絶対的に配置された文字の形やその他のグラフィックで構成されています。「テキストの段落」を表すデータは、タグ付き PDF のオプション機能です。)

テキスト抽出は (通常は高価な) PDF ライブラリの機能である傾向があり、私の知る限り、Javascript 用のそのようなライブラリは存在しません。Scribd と Google Docs はこれを行っていますが、おそらくその方法を共有していません。私の推測では、サーバー側でこれを行っているのでしょう。

tl;dr:形式としての PDF は、これにはひどいものです。基本的に、アプリケーションの要点が PDF からテキストを抽出することでない限り、それを行う必要がない方法を見つけることに時間を費やす方がよいでしょう。

javascript - javascriptのみを使用してpdfファイルからテキストを抽出する

2 に答える 2

Related

Reference