-1

小売業者の Web サイトの製品ページからメイン画像を抽出するオプションを探しています。問題は、製品ページに複数の画像 (関連画像) があることです。1 つのアプローチは、すべての画像リンクを抽出することです。それらのそれぞれをダウンロードして、それらの各イメージのサイズを比較し、メインの製品イメージであるイメージとして、ストレージ バイトの点で最大のサイズを持つイメージを検討してください。

明らかに、それは非常に非効率的なアプローチです。ほとんどの小売業者は、magento や bigcommerce などの特定の e コマース プラットフォームを使用していることを知っています。主要な e コマース プラットフォームはほんの一握りです。e コマース プラットフォームを検出し、それぞれが提供するテンプレートを活用することは可能ですか。主な商品画像を正確に抽出するには?

私はアプローチが決して完璧ではないことを知っていますが、ほぼ80%程度の正確さであるアルゴリズムを探しています.それは実行可能ですか?

4

3 に答える 3

1

画像を抽出しようとしている小売業者のリストはありますか? その場合は、各小売業者のサイトを手動で調べ、その HTML を見て、この特定の小売業者から画像を正常に抽出するコードを作成します。そうでない場合は、運が悪いと思います。ページで最大の画像を取得するか、他のヒューリスティックを使用することはできますが、実際の製品画像を取得しているという保証はありません.

ある種の汎用ユーティリティを作成する際の問題は、各 e コマース プラットフォームには製品画像を表示するための独自の構造があり、その構造はサイトごとに変更される可能性があることです。たとえば、Magentoが通常特定の方法で画像を構成しているからといって、常にそのように表示されるとは限りません。現在適用されているテーマに完全に依存します。

于 2015-02-01T16:00:55.837 に答える