1

ニュースリーダーを作成しています。ユーザーがページへのリンクを入力して、ブログやWebサイトなどの記事を共有するオプションがあります。私は今のところ、ページのコンテンツを決定するために2つの方法を使用しています。

  1. 入力したページユーザーからRSSフィードリンクを抽出し、フィード内のそのURLを一致させて正しいアイテムを取得しようとしています。

  2. サイトにフィードが含まれていないか、不正な形式または入力されたアドレスがrssのアイテムリンクと異なる場合(これは、それ以上ではない場合、約50%の場合です)、ogメタタグを見つけようとします。これはうまく機能しますが、より大きなサイトだけがそれを持っています。小規模なサイトやブログでは、通常、Webサイト全体で同じメタディスクリプションがあります。

たとえばGoogleはどうやってそれをするのだろうか?ウェブサイトにメタディスクリプションが含まれていない場合、Googleは検索結果のページのコンテンツを独自に判断します。

私はHtmlAgilityPackページからものを抽出するために使用しており、HTMLをテキストにクリーンアップするための独自のメソッドを使用しています。

誰かが私にこれに対する論理または最善のアプローチを説明できますか?私がそれを上から直接クロールしようとすると、通常、サイドバー、ナビゲーションなどからのコンテンツになりますか?

4

1 に答える 1

0

結局、JAVAで書かれたBoilerpipeを使用し、 IKVMを使用してインポートしました。これは、正しくフォーマットされた領域のページではうまく機能しますが、コンテンツが散在している一部のページではまだ問題があります。

于 2012-05-30T14:58:46.923 に答える