Facebook がリンクを解析するために使用する機能を再現したいと考えています。Facebook のステータスにリンクを送信すると、そのシステムが表示され、提案された が取得されtitle
、summary
多くの場合、そのページから 1 つ以上image
の関連する が取得され、そこからサムネイルを選択できます。
私のアプリケーションは Python を使用してこれを達成する必要がありますが、これに関連するあらゆる種類のガイド、ブログ投稿、または他の開発者の経験を受け入れており、それを達成する方法を理解するのに役立ちます。
飛び込む前に、他の人の経験から学びたいと思っています。
明確にするために、Web ページの URL が与えられたときに、次のものを取得できるようにしたいと考えています。
- タイトル: おそらくただの
<title>
タグですが、おそらく<h1>
. - ページの 1 段落の要約。
- サムネイルとして使用できる関連画像の束。(トリッキーな部分は、バナーや丸みを帯びた角などの無関係な画像を除外することです)
自分で実装する必要があるかもしれませんが、少なくとも他の人がこの種のタスクをどのように行っているかを知りたいと思います.