0

ウェブサイトのページからデータを取得しました。ただし、HTMLタグとプレーンテキストの両方が含まれています。このスクレイピングされたデータから不要なデータ(タグ、スクリプト、不要なテキストなど)をフィルタリングするにはどうすればよいですか。少なくとも、それを行うためのいくつかのアプローチを提案します。

4

2 に答える 2

1

HTML Agility Packを使用 して、htmlを解析し、不要なテイクを削除できます。

HTMLAgilityPackの使用方法

于 2012-07-04T05:51:53.450 に答える
1

HTMLAgilityPackを確認することから始めることができます。これにより、HTMLを削除できるようになります。

これは、読み取り/書き込みDOMを構築し、プレーンXPATHまたはXSLTをサポートするアジャイルHTMLパーサーです(実際には、XPATHまたはXSLTを理解して使用する必要はありません。心配しないでください...)。これは、「Web外」のHTMLファイルを解析できるようにする.NETコードライブラリです。パーサーは、「現実世界」の不正な形式のHTMLに対して非常に寛容です。オブジェクトモデルは、System.Xmlを提案するものと非常に似ていますが、HTMLドキュメント(またはストリーム)用です。

于 2012-07-04T05:52:59.780 に答える