PHPでURLの要約を取得するにはどうすればよいですか?要約すると、私はグーグルのウェブ検索結果のURLの説明に似たものを意味します。
これは可能ですか?自分で要約を生成する必要がないように、プラグインできるツールはすでにありますか?
可能であれば、メタデータの説明は使用したくありません。
-ディラン
Googleに表示されるのは、(一般的に)METAの説明タグです。それを使用したくない場合は、代わりにページタイトルを使用できます。
メタデータの説明を使用したくない場合 (ところで、これがまさにその目的です)、多くの調査と作業を行う必要があります。基本的に、ページのどの部分がコンテンツで、どれがナビゲーション/フラフなのかを推測する必要があります。実際、Google にはまさにそれがあります。ただし、役に立たない綿毛から貴重な情報を抽出することは、彼らの最大の能力であり、10 年にわたって研究と改善を行ってきたことに注意してください。
もちろん、知識に基づいた推測を行うこともできます (たとえば、「ID またはクラスを持つ要素を探して、maincontent
そこから最初の段落を取得する」など)。本当の問題は、結果をどれだけ良くしたいかということです。(Facebook には、ウェブサイトへのリンクについて同様のものがあります。要約では、広告がメイン コンテンツであると主張しているだけの場合もあります)。
私はサービスを宣伝するのが嫌いですが、これを見つけました:
埋め込み.ly
必要なすべてのデータを含む JSON を返す API があります。
しかし、私はまだ同じことをするためのフリー/オープンソース ライブラリを探しています。
title
以下は、ページのタグの内容を解析することを可能にします。注: file_get_contents
URL を取得できるように php を構成する必要があります。それ以外の場合はcurl
、ページの HTML を取得するために を使用する必要があります。
$title_open = '<title>';
$title_close = '</title>';
$page = file_get_contents( 'http://www.domain.com' );
$n = stripos( $page, $title_open ) + strlen( $title_open );
$m = stripos( $page, $title_close);
$title = substr( $page, n, m-n );