背景
メニュー、サイドバー、スクリプト、およびその他の HTML クラッターなしで、ページのメイン コンテンツに焦点を当てて、Web ページのコンテンツを読み取って分析しようとしています。
- NReadabilityを試しましたが、例外がスローされ、多くの場合に失敗します。それ以外は良い解決策です。
- HTML Agility Pack は、ここで必要なものではありません。コンテンツ以外のコードも削除したいからです。
編集:実際にコンテンツをふるいにかけ、ページから「関連する」テキストのみを提供するライブラリを探しています(つまり、このページでは、「レビュー」、「チャット」、「メタ」、「約」という単語) 、トップバーの「よくある質問」、および「以下でライセンスされているユーザーの貢献」は表示されません。
Web サイトからコンテンツを抽出するための安定した .Net ライブラリを他に知っていますか?