python - Scrapy はリアルタイムラッパーとして利用できますか?

Question

リアルタイムラッパーを作成するためにスクレイピー Python フレームワークを利用することの実現可能性について、誰かが何らかの洞察を提供できることを期待していました。

このコンテキストでの「ラッパー」という用語の私の定義を明確にするために、私の状況について説明します...私は、ユーザーがWebサイトで検索クエリを実行できるようにするソリューションを基本的にスクリプト化するためにscrapyを使用したいと考えていました。そのスパイダーに次のように指示するリアルタイムのスクレイピースパイダー:

サードパーティの書き込みにログイン
ユーザー検索クエリを実行する
一意の結果セットコンテナークラスおよび/または xpath を指定して結果の html コンテンツを抽出することにより、返されたクエリの実際の html 結果のみを取得します)。
抽出された html の結果を変更します (html を再構成するか、新しいヘッダー/フッターまたは css 要素を挿入することにより)。5) そして最後に、変更された html の結果をリアルタイムで返すので、ユーザーに対してすべて透過的であるため、html を元のドメインに直接注入できます。

大規模なクロール用のスクレイピースパイダーを大量に作成することには慣れていますが、それを使用してリアルタイムタイプの「ラッパー」を構築できる見込みや実現可能性についてはあまり詳しくありません。

誰かが同様の状況を説明する洞察、アドバイス、または例を持っているなら、私はそれを大いに感謝します. CH

score 1 · Accepted Answer

http://htql.net/で Python 用の HTQL ブラウザーインターフェイスを試すことができます。リアルタイムでの Bing 検索の例は次のとおりです。

import htql;
a=htql.Browser(); 
b=a.goUrl("http://www.bing.com/");
c=a.goForm("<form>1", {"q":"test"});
for d in htql.HTQL(c[0], "<a (tx like '%test%')>"): 
    print(d);

e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");

IRobotSoft スクレーパーと組み合わせて、ブラウザーを次のように変更することで、すべてを視覚的に行うことができます。

a=htql.Browser(2);

詳細については、このマニュアルhttp://htql.net/htql-python-manual.pdfを参照するか、 http://irobotsoft.org/bb/で質問してください。

python - Scrapy はリアルタイムラッパーとして利用できますか?

1 に答える 1

Related

Reference