以前、Node.js でアプリケーション、特にデータ スクレイパーを作成しました。これらのタイプのアプリケーションには Web フロント エンドがありませんでしたが、単に cron ジョブとタイミングを合わせて、Web ページをプルするための複雑な HTTP GET 要求を非同期的に作成し、結果からデータをスクレイピングして保存するプロセスでした。
私が書く関数のサンプルは次のようになります:
// Node.js
var request = require("request");
function scrapeEverything() {
var listOfIds = [23423, 52356, 63462, 34673, 67436];
for (var i = 0; i < listOfIds.length; i++) {
request({uri: "http://mydatasite.com/?data_id = " + listOfIds[i]},
function(err, response, body) {
var jsonobj = JSON.parse(body);
storeMyData(jsonobj);
});
}
}
この関数は ID をループし、一連の非同期 GET 要求を作成し、そこからデータを保存します。
私は現在、Python でスクレーパーを作成しており、Tornado を使用して同じことを試みていますが、ドキュメントに記載されているものはすべて、Tornado が Web サーバーとして機能していることを示しており、これは私が探しているものではありません。誰でもこれを行う方法を知っていますか?