ニュースリーダーを作成しています。ユーザーがページへのリンクを入力して、ブログやWebサイトなどの記事を共有するオプションがあります。私は今のところ、ページのコンテンツを決定するために2つの方法を使用しています。
入力したページユーザーからRSSフィードリンクを抽出し、フィード内のそのURLを一致させて正しいアイテムを取得しようとしています。
サイトにフィードが含まれていないか、不正な形式または入力されたアドレスがrssのアイテムリンクと異なる場合(これは、それ以上ではない場合、約50%の場合です)、ogメタタグを見つけようとします。これはうまく機能しますが、より大きなサイトだけがそれを持っています。小規模なサイトやブログでは、通常、Webサイト全体で同じメタディスクリプションがあります。
たとえばGoogleはどうやってそれをするのだろうか?ウェブサイトにメタディスクリプションが含まれていない場合、Googleは検索結果のページのコンテンツを独自に判断します。
私はHtmlAgilityPack
ページからものを抽出するために使用しており、HTMLをテキストにクリーンアップするための独自のメソッドを使用しています。
誰かが私にこれに対する論理または最善のアプローチを説明できますか?私がそれを上から直接クロールしようとすると、通常、サイドバー、ナビゲーションなどからのコンテンツになりますか?