4

私の Node.Js アプリでは、Google 検索結果の最初のページを.comドメインから取得する必要があり"People also search for"ます。これは、Google.Com にのみ表示されるナレッジ グラフ情報が必要なためです。

requestとモジュールを使用してcheerioGoogle の検索結果ページからコンテンツを削除できると考えましたが、必要な URL にアクセスしようとすると、https://www.google.com/search?gws_rd=ssl&site=&source=hp&q=google&oq=googleGoogle は自動的に.deドメインにリダイレクトします (私はドイツに拠点を置いているため)。

http://www.google.com/ncrブラウザで国固有のリダイレクトを自動的にオフにする URLを最初に読み込むように設定しようとしましたが、うまくいきませんでした...

それを機能させるために私が別の方法でできることを誰かが知っていますか?

これが私のコードです...ありがとう!

var request = require("request");
var cheerio = require("cheerio");

function dataCookieToString(dataCookie) {
    var t = "";
    for (var x = 0; x < dataCookie.length; x++) {
        t += ((t != "") ? "; " : "") + dataCookie[x].key + "=" + dataCookie[x].value;
    }
    return t;
}

function mkdataCookie(cookie) {
    var t, j;
    cookie = cookie.toString().replace(/,([^ ])/g, ",[12],$1").split(",[12],");
    for (var x = 0; x < cookie.length; x++) {
        cookie[x] = cookie[x].split("; ");
        j = cookie[x][0].split("=");
        t = {
            key: j[0],
            value: j[1]
        };
        for (var i = 1; i < cookie[x].length; i++) {
            j = cookie[x][i].split("=");
            t[j[0]] = j[1];
        }
        cookie[x] = t;
    }

    return cookie;
}

var dataCookie = mkdataCookie('MC_STORE_ID=66860; expires=' + new Date(new Date().getTime() + 86409000));


request({
    uri: "https://www.google.com/ncr",
    headers: {
        'User-Agent': 'Mozilla/5.0',
        "Cookie": dataCookieToString(dataCookie)
    }
}, function(error, response, body) {

    request({
        uri: "https://www.google.com/search?gws_rd=ssl&site=&source=hp&q=google&oq=google",
        headers: {
            'User-Agent': 'Mozilla/5.0'
        }
    }, function(error, response, body) {
        console.log(body);
        var $ = cheerio.load(body);

        $(".kno-fb-ctx").each(function() {
            var link = $(this);
            var text = link.text();

            console.log(text);
        });
    });
});
4

1 に答える 1

3

解決策は次のとおりです。思ったよりもずっと簡単です。

ただし、bodyJavaScriptが有効になっている場合にのみ表示されるものが含まれていないという問題がまだあります。

以下のコードを変更して、javascript 対応のコンテンツも本文に含める方法を知っている人はいますか?

var request = require('request');
var cheerio = require("cheerio");

request = request.defaults({jar: true});

var options = {
    url: 'http://www.google.com/ncr',
    headers: {
        'User-Agent': 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; rv:1.9.2.16) Gecko/20110319 Firefox/3.6.16'
    }
};

request(options, function () {

    request('https://www.google.com/search?gws_rd=ssl&site=&source=hp&q=google&oq=google', function (error, response, body) {

        var $ = cheerio.load(body);

        $("li").each(function() {
            var link = $(this);
            var text = link.text();

            console.log(text);
        });
    });
});
于 2015-01-02T02:34:09.137 に答える