javascript - JavaScript を使用して PDF ファイルから画像を抽出する

Question

PDF ファイルからすべての画像ファイルを抽出する JavaScript コードを作成し、おそらく JPG またはその他の画像形式として取得したいと考えています。PDF ビューアーpdf-jsなど、PDF ファイルを読み取るための JavaScript コードが既にいくつかあります。

window.addEventListener('change', function webViewerChange(evt) {
  var files = evt.target.files;
  if (!files || files.length === 0)
    return;

  // Read the local file into a Uint8Array.
  var fileReader = new FileReader();
  fileReader.onload = function webViewerChangeFileReaderOnload(evt) {
    var buffer = evt.target.result;
    var uint8Array = new Uint8Array(buffer);
    PDFView.open(uint8Array, 0);
  };

  var file = files[0];
  fileReader.readAsArrayBuffer(file);
  PDFView.setTitleUsingUrl(file.name);
  ........

このコードを使用して、画像ファイルを読み取って抽出できますか?

score 21 · Accepted Answer

でページを開いた場合pdf.js、たとえば

PDFJS.getDocument({url: <pdf file>}).then(function (doc) {
    doc.getPage(1).then(function (page) {
        window.page = page;
    })
})

getOperatorListその後、オブジェクトを検索しpaintJpegXObjectてリソースを取得するために使用できます。

window.objs = []
page.getOperatorList().then(function (ops) {
    for (var i=0; i < ops.fnArray.length; i++) {
        if (ops.fnArray[i] == PDFJS.OPS.paintJpegXObject) {
            window.objs.push(ops.argsArray[i][0])
        }
    }
})

argsそのページから取得する必要があるリソースのリストが表示されます。

console.log(window.args.map(function (a) { page.objs.get(a) }))

data-uri属性<img />を持つ一連のオブジェクトをコンソールに出力する必要があります。src=これらはページに直接挿入することも、さらにスクリプトを実行して生データを取得することもできます。

埋め込まれた JPEG オブジェクトに対してのみ機能しますが、これでスタートです!

score 0 · Accepted Answer

これは、pdf から画像を取得し、アルファチャネルを Uint8ClampedArray に追加して表示できるようにする作業例へのリンクです。キャンバスに画像を表示します。

コードペンでの例: https://codepen.io/allandiego/pen/RwVGbyj

キャンバスからデータ URL を取得して、img タグで表示できるようにします。

const canvas = document.createElement('canvas');
canvas.width = imageWidth;
canvas.height = imageHeight;
const ctx = canvas.getContext('2d');
ctx!.putImageData(imageData, 0, 0);
const dataURL = canvas.toDataURL();

javascript - JavaScript を使用して PDF ファイルから画像を抽出する

2 に答える 2

Related

Reference