html - Webページから関連する画像を抽出する

Question

Twitterを利用したニュースアグリゲーションWebサイトがいくつかあります。ツイッターで見つけた記事の画像を追加する予定です。

<img>ページをダウンロードし、タグを使用して画像を抽出すると、大量の画像が表示されます。それらのすべてが記事に関連しているわけではありません。たとえば、ボタン、アイコン、広告などの画像がキャプチャされます。記事に付随する画像を抽出するにはどうすればよいですか？私は解決策があることを知っています-Facebookのリンク共有者はこれをかなりうまくやっています。

ミツン

複製：ウェブサイトで「メイン」画像を見つけて抽出する方法

score 8 · Accepted Answer

ページからすべての画像をダウンロードし、広告サーバーからのすべての画像をブラックリストに登録します。次に、正しい画像を取得するヒューリスティックを見つけます...

私は次のようなものだと思います：

最大解像度+=5ポイント
最大ファイルサイズ+=10ポイント
Jpeg +=2ポイント

次に、ポイントが最も多い画像を撮り、残りを捨てます

おそらく大多数のサイトで機能します。

（ただし、ヒューリスティックをいじる必要があります）

score 4 · Accepted Answer

おひさしぶりですね。しかし、これは次回役立つかもしれません。

このAPIを使用できますhttps://urlmeta.org/

使い方はとても簡単で、結果は私たちが必要とする最高のものです。

APIの使用例：

<?php
$url = "http://timesofindia.indiatimes.com/business/india-business/Raghuram-Rajan-not-fit-to-be-RBI-Governor-Subramanian-Swamy/articleshow/52236298.cms";

$result = file_get_contents('https://api.urlmeta.org/?url='.$url);
$array = json_decode($result,1);
print_r($array['meta']['image']);

?>

そして、それはあなたが必要とした結果です。

score 3 · Accepted Answer

私はちょっとハッキーですが私のために働く解決策を思いついたのです。これが私がサムネイルを取得するために行うことです。

私が見つけたページの見出しは「これは見出しです」と言ってください
これをGoogleImageAPIへのクエリとして使用し、最初に見つけたサムネイルを抽出します。

実際には、ほとんどの場合に非常にうまく機能します。自分でチェックしてくださいhttp://cricketfresh.in

ミトゥン

ps：これは良い答えだと思います。よりエレガントな答えを持っている人にクレジットを与えます。

score 1 · Accepted Answer

Facebookには、サポートしているさまざまなサイトのリンク抽出機能があると思います。id = "content"-> img（1番目）のようなもの。

私は間違っていると思います。FacebookはOpenGraphプロトコルを使用して、使用する画像（og：image）とメタデータを定義しているようです。

html - Webページから*関連する*画像を抽出する

4 に答える 4

Related

Reference

html - Webページから関連する画像を抽出する