c# - HTMLページのコンテンツを判別する

Question

ニュースリーダーを作成しています。ユーザーがページへのリンクを入力して、ブログやWebサイトなどの記事を共有するオプションがあります。私は今のところ、ページのコンテンツを決定するために2つの方法を使用しています。

入力したページユーザーからRSSフィードリンクを抽出し、フィード内のそのURLを一致させて正しいアイテムを取得しようとしています。
サイトにフィードが含まれていないか、不正な形式または入力されたアドレスがrssのアイテムリンクと異なる場合（これは、それ以上ではない場合、約50％の場合です）、ogメタタグを見つけようとします。これはうまく機能しますが、より大きなサイトだけがそれを持っています。小規模なサイトやブログでは、通常、Webサイト全体で同じメタディスクリプションがあります。

たとえばGoogleはどうやってそれをするのだろうか？ウェブサイトにメタディスクリプションが含まれていない場合、Googleは検索結果のページのコンテンツを独自に判断します。

私はHtmlAgilityPackページからものを抽出するために使用しており、HTMLをテキストにクリーンアップするための独自のメソッドを使用しています。

誰かが私にこれに対する論理または最善のアプローチを説明できますか？私がそれを上から直接クロールしようとすると、通常、サイドバー、ナビゲーションなどからのコンテンツになりますか？

score 0 · Accepted Answer

結局、JAVAで書かれたBoilerpipeを使用し、 IKVMを使用してインポートしました。これは、正しくフォーマットされた領域のページではうまく機能しますが、コンテンツが散在している一部のページではまだ問題があります。

1 に答える 1