2

まず、私は Javascript と Node.js の両方の初心者なので、私の質問がばかげていたら申し訳ありません。

request、cheerio、pdfkit を使用して、Web サイトからテキストと画像をスクレイピングして PDF にエクスポートしようとしていますが、問題が発生しています。

これを使用して、画像をスクレイピングしてローカルに保存できます。

var $ = cheerio.load(body);

        $("#mediatab1 img").each(function(){
        var image= 'http://WWW.WEBSITE.no' + $(this).attr('src');
        images.push(image);
        });

        for(var i = 0; i < images.length; i++){
            request(images[i]).pipe(fs.createWriteStream('images/' + i + '.jpg')); }

しかし!問題は次のとおりです。

1.意図:ファイルをpdfに書き込もうとすると

doc.image('images/0.jpg');

私が得るのは

Error: Unknown image format.
    at Function.PDFImage.open (C:\nodejs\node_modules\pdfkit\js\im
age.js:41:15)
    at PDFDocument.module.exports.image (C:\nodejs\node_modules\pd
fkit\js\mixins\images.js:27:26)
    at Request._callback (C:\nodejs\prosjekt.js:29:6)
    at Request.self.callback (C:\nodejs\node_modules\request\reque
st.js:344:22)
    at Request.emit (events.js:98:17)
    at Request.<anonymous> (C:\nodejs\node_modules\request\request
.js:1239:14)
    at Request.emit (events.js:117:20)
    at IncomingMessage.<anonymous> (C:\nodejs\node_modules\request
\request.js:1187:12)
    at IncomingMessage.emit (events.js:117:20)
    at _stream_readable.js:944:16

0.jpg は 0 バイトなので、ここにタイミングの問題があるのではないでしょうか?

2. 意図

ローカルに保存する代わりに .pipe を使用しようとしました:

request(images[i]).pipe(doc.image(images[0]));

しかし、私が得るのは次のとおりです。

"Error: ENOENT, no such file or directory 'C:\nodejs\http:\www.WEBSITE.no\Common\Tools\ImageScaler.ashx?id=c7d73548-8198-4bd1-867d-33fc0dfe73d1&h=4
13'

これを修正する方法、または他の方法で問題を解決する方法はありますか?

スクリプト全体は次のとおりです。

var request = require('request'),
    cheerio = require('cheerio'),
    PDFDocument = require('pdfkit'),
    doc = new PDFDocument,
    fs = require('fs'),
    prompt = require('prompt');
    bilder = [];


    prompt.start();
    prompt.get(['prosjekturl'], function (err, result) {    
    request({url: 'http://www.WEBSITE.no/no/Prosjekter/Prosjekt/?pid=' + result.prosjekturl, encoding:null}, function(err, resp, body){
        if(!err && resp.statusCode == 200){
        //  console.log(body);

        var $ = cheerio.load(body);

            $("#mediatab1 img").each(function(){
            var bilde = 'http://www.WEBSITE.no' + $(this).attr('src');
            bilder.push(bilde);
            });

            console.log(bilder);
            for(var i = 0; i < bilder.length; i++){
                request(bilder[i]).pipe(fs.createWriteStream('images/' + i + '.jpg'));
            }           

            $("#MiddleRightContainer h1").each(function(){
            var tittel = $(this).text();
            console.log(tittel);
doc.pipe(fs.createWriteStream('pdf/output.pdf'));

            doc.font('fonts/FONT-Regular.ttf');
            doc.fontSize(32);
            doc.text(tittel);

            });

            $("#MiddleRightContainer .user-content p").each(function(){
            var tekst = $(this).text();

            console.log(tekst);
            doc.pipe(fs.createWriteStream('pdf/output.pdf'));
            doc.fontSize(12);
            doc.text(tekst);


            });

            $("#RightSidebar div.box2").each(function(){
            var fakta = $(this).text();
            console.log(fakta);

            });

            }



doc.end();
            });


            });
4

2 に答える 2

0

ファイルの読み込みに関しては、Windows パスが問題になる可能性があると思います。node.js 組み込みのパス解決を試して使用してください: https://nodejs.org/api/path.html

画像のリクエストとロードに関しては、次の値を超えてはなりません。

request({
    url: url,
    // Prevents Request from converting response to string
    encoding: null

}, function (err, response, body) {
    doc.image(body)
})

それがいくらか役立つことを願っています。

于 2015-08-26T00:37:06.677 に答える