2

リアルタイム ラッパーを作成するためにスクレイピー Python フレームワークを利用することの実現可能性について、誰かが何らかの洞察を提供できることを期待していました。

このコンテキストでの「ラッパー」という用語の私の定義を明確にするために、私の状況について説明します...私は、ユーザーがWebサイトで検索クエリを実行できるようにするソリューションを基本的にスクリプト化するためにscrapyを使用したいと考えていました。そのスパイダーに次のように指示するリアルタイムのスクレイピー スパイダー:

  1. サードパーティの書き込みにログイン
  2. ユーザー検索クエリを実行する
  3. 一意の結果セット コンテナー クラスおよび/または xpath を指定して結果の html コンテンツを抽出することにより、返されたクエリの実際の html 結果のみを取得します)。
  4. 抽出された html の結果を変更します (html を再構成するか、新しいヘッダー/フッターまたは css 要素を挿入することにより)。5) そして最後に、変更された html の結果をリアルタイムで返すので、ユーザーに対してすべて透過的であるため、html を元のドメインに直接注入できます。

大規模なクロール用のスクレイピー スパイダーを大量に作成することには慣れていますが、それを使用してリアルタイム タイプの「ラッパー」を構築できる見込みや実現可能性についてはあまり詳しくありません。

誰かが同様の状況を説明する洞察、アドバイス、または例を持っているなら、私はそれを大いに感謝します. CH

4

1 に答える 1

1

http://htql.net/で Python 用の HTQL ブラウザー インターフェイスを試すことができます。リアルタイムでの Bing 検索の例は次のとおりです。

import htql;
a=htql.Browser(); 
b=a.goUrl("http://www.bing.com/");
c=a.goForm("<form>1", {"q":"test"});
for d in htql.HTQL(c[0], "<a (tx like '%test%')>"): 
    print(d);

e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");

IRobotSoft スクレーパーと組み合わせて、ブラウザーを次のように変更することで、すべてを視覚的に行うことができます。

a=htql.Browser(2); 

詳細については、このマニュアルhttp://htql.net/htql-python-manual.pdfを参照するか、 http://irobotsoft.org/bb/で質問してください。

于 2013-08-25T01:06:18.810 に答える