3

画像 URL を指定して、類似画像の URL のリストをプログラムで検索したいと考えています。無料の画像検索 API が見つからないため、Google のSearch by Imageをスクレイピングしてこれを実行しようとしています。

画像の URL がある場合、たとえばhttp://i.imgur.com/oLmwq.pngと入力してから、 https://www.google.com/searchbyimage?& image_url=http://i.imgur.com/oLmwqに移動します。 .pngは、関連する画像と情報を提供します。

jsdom.env上記の URL からブラウザが取得する HTML を生成するにはどうすればよいですか?

これが私が試したことです(CoffeeScript):

jsdom = require 'jsdom'
url = 'https://www.google.com/searchbyimage?&image_url=http://i.imgur.com/oLmwq.png'
jsdom.env
    html: url
    scripts: [ "http://code.jquery.com/jquery.js" ]
    features:
        FetchExternalResources: ['script']
        ProcessExternalResources: ['script']
    done: (errors, window) ->
        console.log window.$('body').html()

HTML が必要なものと一致していないことがわかります。これは Jsdom の HTTP ヘッダーの問題ですか?

4

2 に答える 2

4

このようなタスクでは、jsdom よりもrequest + cheerioの方が簡単だと思います。すでに答えを見つけているようですが、別の解決策として言及したいと思います。

例:

var request = require('request'),
    cheerio = require('cheerio');

var google = 'https://www.google.com/searchbyimage';
var image = 'http://i.imgur.com/oLmwq.png';

var options = {
  url: google,
  qs: { image_url: image },
  headers: { 'user-agent': 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11' }
};

request(options, function (err, res, body) {
  var $ = cheerio.load(body);
  …
});
于 2013-01-26T00:19:41.180 に答える
2

問題は、Jsdom の User-Agent HTTP ヘッダーです。それが設定されると、すべてが(ほぼ)機能します:

jsdom = require 'jsdom'
url = 'https://www.google.com/searchbyimage?&image_url=http://i.imgur.com/oLmwq.png'
jsdom.env
    html: url
    headers:
        'User-Agent': 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'
    scripts: [ "http://code.jquery.com/jquery.js" ]
    features:
        FetchExternalResources: ['script']
        ProcessExternalResources: ['script']

    done: (errors, window) ->
        $ = window.$
        $('#iur img').parent().each (index, elem) ->
            href = $(elem).attr 'href'
            url = href.split('?')[1].split('&')[0].split('=')[1]
            console.log url

これにより、視覚的に類似した画像の優れたリストが得られます。唯一の問題は、Jsdom が結果を返した後にエラーをスローすることです。

timers.js:103
            if (!process.listeners('uncaughtException').length) throw e;
                                                                      ^
TypeError: Cannot call method 'call' of undefined
    at new <anonymous> (/project-root/node_modules/jsdom/lib/jsdom/browser/index.js:54:13)
    at _.Zl (https://www.google.com/xjs/_/js/s/c,sb,cr,cdos,jsa,ssb,sf,tbpr,tbui,rsn,qi,ob,mb,lc,hv,cfm,klc,kat,aut,esp,bihu,amcl,kp,lu,m,rtis,shb,sfa,hsm,pcc,csi/rt=j/ver=3w99aWPP0po.en_US./d=1/sv=1/rs=AItRSTPrAylXrfkOPyRRY-YioThBMqxW2A:1238:93)
    at _.jm (https://www.google.com/xjs/_/js/s/c,sb,cr,cdos,jsa,ssb,sf,tbpr,tbui,rsn,qi,ob,mb,lc,hv,cfm,klc,kat,aut,esp,bihu,amcl,kp,lu,m,rtis,shb,sfa,hsm,pcc,csi/rt=j/ver=3w99aWPP0po.en_US./d=1/sv=1/rs=AItRSTPrAylXrfkOPyRRY-YioThBMqxW2A:1239:399)
    at _.km (https://www.google.com/xjs/_/js/s/c,sb,cr,cdos,jsa,ssb,sf,tbpr,tbui,rsn,qi,ob,mb,lc,hv,cfm,klc,kat,aut,esp,bihu,amcl,kp,lu,m,rtis,shb,sfa,hsm,pcc,csi/rt=j/ver=3w99aWPP0po.en_US./d=1/sv=1/rs=AItRSTPrAylXrfkOPyRRY-YioThBMqxW2A:1241:146)
    at Object._onTimeout (https://www.google.com/xjs/_/js/s/c,sb,cr,cdos,jsa,ssb,sf,tbpr,tbui,rsn,qi,ob,mb,lc,hv,cfm,klc,kat,aut,esp,bihu,amcl,kp,lu,m,rtis,shb,sfa,hsm,pcc,csi/rt=j/ver=3w99aWPP0po.en_US./d=1/sv=1/rs=AItRSTPrAylXrfkOPyRRY-YioThBMqxW2A:1248:727)
    at Timer.list.ontimeout (timers.js:101:19)
于 2012-12-22T14:14:06.410 に答える