php - PHPを使用してWebページのh1タグのコンテンツを取得する最良の(そして最も安全な)方法は何ですか?

Question

PHP のget_meta_tags()関数を使用して、さまざまな Web ページのメタタグを取得しています。<h1>Web ページのタグのコンテンツを取得する最良の方法を知りたいです。を使用するfile_get_contents()必要がありますか、それともより良い方法がありますか?

score 4 · Accepted Answer

はい、私は使用します：

$page = file_get_contents('http://example.com');
$matches = array();
preg_match( '#<h1>(.*?)</h1>#', $page, $matches );

あなたの情報は$matches

score 1 · Accepted Answer

file_get_contents()ページのコンテンツを取得するために機能します。コンテンツを取得したら、h1タグを抽出する方法はあなた次第です。

h1最初のタグの内容を返す単純な正規表現を試すことができます。

$contents = file_get_contents($url);
preg_match_all("/<h1>(.*?)<\/h1>/", $contents, $matches);
$h1 = $matches[1];

ただし、HTML を扱うときは DOM パーサーを使用することを好みます。PHP Simple HTML DOM Parserは非常に使いやすいです。何かのようなもの：

$contents = file_get_contents($url);
$html = str_get_html($contents);
$h1 = $html->find("h1")[0];

注: これらのコードスニペットはテストしていません。始めるためのサンプルです。

score 0 · Accepted Answer

<h1>タグはメタタグではないため、この機能は使用できませんget_meta_tags()。HTML ドキュメントのメタタグは<head>、コンテンツ自体ではなく、ページに関する情報を含むセクション内のタグです。

PHP.DOMは、必要な情報を取得するためのおそらく最良の方法です。これは、うまく始めるための適切なチュートリアルへのリンクです。

score 0 · Accepted Answer

Simple HTML DOMを使用してみてください。

コード：

<?php
require_once('simple_html_dom.php');
$raw = '<h1>blah</h1>'; // Set the raw HTML of the webpage here
$html = str_get_html($raw);
$h1 = $html->find('h1', 0)->plaintext;
echo $h1;
?>

php - PHPを使用してWebページのh1タグのコンテンツを取得する最良の(そして最も安全な)方法は何ですか?

4 に答える 4

Related

Reference