2

ウェブサイトから html をダウンロードし、コードを反復処理して特定の変化する値 (この場合は製品の価格) を見つける必要がある webapp を開発しています。

このため、ユーザーに (インストールとセットアップ時に) ページ (価格がある) から数行の html をシステムに提供するように依頼することを考えていました。それらの行を検索して価格を見つけようとします。

現在、これは恐ろしく遅い方法だと思います。ルールがなく、html が Web サイトごとにまったく異なる可能性があるため (同じ Web サイトでも変更される可能性があります)、より良い方法を見つけることができませんでした。

私が考えた 1 つの改善点は、最初から繰り返し、コードを見つけた行を記録することでした。見つかったら、それ以降は予想される場所の数行前から検索を開始します。これを改善する方法について何か考えはありますか?

この質問をhttps://cstheory.stackexchange.com/に投稿しましたが、彼らはそれはトピックではなく、ここに投稿する必要があるとコメントしました。

上記のコードがあり、必要に応じて投稿できます。これを行うためのより良い、より高速な方法が必要だと単純に考えています。

4

1 に答える 1

1

これは実際に私が最近プロジェクトで試したことです (BeautifulSoup と Python を使用)。私にとってうまくいった解決策は、探していた値を含む要素を対象とする CSS セレクター (jQuery セレクターにマップできる) をワークアウトすることでした。私の場合、私が探していたものを含む要素だけに完全なドキュメントを絞り込むことができましたが、これをいくつかの追加の乳酸のようなテストと組み合わせて、それが見えるかどうかを確認した後、正確に何を得ることができなかった場合(正規表現を介して)価格のように、またはそれが隣にあるものをテストします。

于 2014-02-17T17:54:33.423 に答える