3

私はあなたが多くのeコマースウェブサイトで製品を検索することを可能にするeコマース検索エンジンを開発しています。

どうすれば問題に取り組むことができますか?

Webサイトをスキャンし、HTMLを解析して、Webサイト内のどの画像が製品画像であるか、製品の説明であるか、製品の価格であるかを判別できるアプリケーションが必要です。

どんなアイデア、例でも聞いてうれしいです。

前もって感謝します。

編集:私の質問は、WebサイトからHTMLを取得する方法(スクリーンスクレイピングと呼ばれます)ではなく、その情報を解析して、探している実際のデータが含まれているHTMLと含まれていないHTMLを理解する方法についてです。

4

2 に答える 2

2

このスレッドはあなたの探求に役立つかもしれません。そこで基本的な手順を概説しました。SOで「スクリーンスクレイピング」とタグ付けされたすべての質問へのリンクは次のとおりです。また、ウェブ上のたくさんの資料-グーグル

于 2009-02-06T07:11:10.173 に答える
1

スクレイピングするサイトのほとんど(より正確にはWebスクレイピング)には、「リセラー」タイプの取引用のパートナーAPIがあります。スクリーンスクレイピングでそれを回避すると、IPがトラフィックサーバーによってブロックされていることがすぐにわかり、法的な状況に陥る可能性があります。

これはせいぜい倫理的に疑わしいです。

于 2009-02-06T07:14:12.883 に答える