ウィキペディアの記事のリストがあります (ブラウザでの自分の履歴)。ウィキペディアの内部ハイパーリンクごとに線を引くことで、ウィキペディアへの訪問のツリーを描きたいと思います。良い結果を得るために、各ノードを記事の名前で表し、本文に少なくとも 1 つの画像がある記事については、記事から抽出された画像を表示したいと思います。
どの画像が最良の候補ですか? 時々、thumbimage という名前の画像があることに気付きましたが、常にそうであるとは限りません。
ウィキペディアの記事のリストがあります (ブラウザでの自分の履歴)。ウィキペディアの内部ハイパーリンクごとに線を引くことで、ウィキペディアへの訪問のツリーを描きたいと思います。良い結果を得るために、各ノードを記事の名前で表し、本文に少なくとも 1 つの画像がある記事については、記事から抽出された画像を表示したいと思います。
どの画像が最良の候補ですか? 時々、thumbimage という名前の画像があることに気付きましたが、常にそうであるとは限りません。
DBPedia 画像データセットを確認してください。
http://wiki.dbpedia.org/Downloads38#h227-1
彼らは多くの記事の代表的な画像を選択しました. それらはそれほど頻繁に更新されるわけではありません (最新のものは 2012 年 6 月のもので、私が書いているのは 4 か月前だと思います)。データ。
特定のページから関連する画像を取得しようとして、同様の経験がありました。私の場合、og:image プロパティを利用します。
詳細については、http: //ogp.me/をご覧ください。
もう 1 つの方法は、HTML または wikimedia マークアップを使用して、ページから自分で画像を解析することです。利用可能な場合はインフォボックスの画像を取得し、それが失敗した場合は、ページの最初の画像を取得することをお勧めします。