9

Twitterを利用したニュースアグリゲーションWebサイトがいくつかあります。ツイッターで見つけた記事の画像を追加する予定です。

<img>ページをダウンロードし、タグを使用して画像を抽出すると、大量の画像が表示されます。それらのすべてが記事に関連しているわけではありません。たとえば、ボタン、アイコン、広告などの画像がキャプチャされます。記事に付随する画像を抽出するにはどうすればよいですか?私は解決策があることを知っています-Facebookのリンク共有者はこれをかなりうまくやっています。

ミツン

複製:ウェブサイトで「メイン」画像を見つけて抽出する方法

4

4 に答える 4

8

ページからすべての画像をダウンロードし、広告サーバーからのすべての画像をブラックリストに登録します。次に、正しい画像を取得するヒューリスティックを見つけます...

私は次のようなものだと思います:

  • 最大解像度+=5ポイント
  • 最大ファイルサイズ+=10ポイント
  • Jpeg +=2ポイント

次に、ポイントが最も多い画像を撮り、残りを捨てます

おそらく大多数のサイトで機能します。

(ただし、ヒューリスティックをいじる必要があります)

于 2010-09-16T11:57:46.060 に答える
4

おひさしぶりですね。しかし、これは次回役立つかもしれません。

このAPIを使用できますhttps://urlmeta.org/

使い方はとても簡単で、結果は私たちが必要とする最高のものです。

APIの使用例:

<?php
$url = "http://timesofindia.indiatimes.com/business/india-business/Raghuram-Rajan-not-fit-to-be-RBI-Governor-Subramanian-Swamy/articleshow/52236298.cms";

$result = file_get_contents('https://api.urlmeta.org/?url='.$url);
$array = json_decode($result,1);
print_r($array['meta']['image']);

?>

そして、それはあなたが必要とした結果です。

于 2016-05-14T06:59:09.150 に答える
3

私はちょっとハッキーですが私のために働く解決策を思いついたのです。これが私がサムネイルを取得するために行うことです。

  1. 私が見つけたページの見出しは「これは見出しです」と言ってください
  2. これをGoogleImageAPIへのクエリとして使用し、最初に見つけたサムネイルを抽出します。

実際には、ほとんどの場合に非常にうまく機能します。自分でチェックしてくださいhttp://cricketfresh.in

ミトゥン

ps:これは良い答えだと思います。よりエレガントな答えを持っている人にクレジットを与えます。

于 2010-09-16T11:52:25.690 に答える
1

Facebookには、サポートしているさまざまなサイトのリンク抽出機能があると思います。id = "content"-> img(1番目)のようなもの。

私は間違っていると思います。FacebookはOpenGraphプロトコルを使用して、使用する画像(og:image)とメタデータを定義しているようです。

于 2010-09-16T08:16:14.573 に答える