これを行うには、サーバー側の言語を選択します。
たとえば、PHPではget_meta_tags()
、メタタグに使用できます...
$meta = get_meta_tags('http://google.com');
また、DOMDocumentを使用してtitle
要素を取得することもできます(title
要素が必要な場合は、DOMDocumentを使用してメタタグを取得することもできます)。
$dom = new DOMDocument;
$dom->loadHTML('http://google.com');
$title = $dom
->getElementsByTagName('head')
->item(0)
->getElementsByTagName('title')
->item(0)
->nodeValue;
メイン画像の取得に関しては、メイン画像と見なされる可能性のあるものを何らかの形で抽出する必要があります。img
すべての要素を取得して、ページ上で最大の要素を探すことができます。
$dom = new DOMDocument;
$dom->loadHTML('http://google.com');
$imgs = $dom
->getElementsByTagName('body')
->item(0)
->getElementsByTagName('img');
$imageSizes = array();
foreach($imgs as $img) {
if ( ! $img->hasAttribute('src')) {
continue;
}
$src = $img->getAttribute('src');
// May need to prepend relative path
// Assuming Apache, http and port 80
$relativePath = rtrim($_SERVER['SERVER_NAME'] . $_SERVER['REQUEST_URI'], '/') . '/';
if (substr($src, 0, strlen($relativePath) !== $relativePath) {
$src = $relativePath . $src;
}
$imageInfo = getimageinfo($src);
if ( ! $imageInfo) {
continue;
}
list($width, $height) = $imageInfo;
$imageSizes[$width * $height] = $img;
}
$mainImage = end($imageSizes);