ウェブサイトのページからデータを取得しました。ただし、HTMLタグとプレーンテキストの両方が含まれています。このスクレイピングされたデータから不要なデータ(タグ、スクリプト、不要なテキストなど)をフィルタリングするにはどうすればよいですか。少なくとも、それを行うためのいくつかのアプローチを提案します。
質問する
113 次
2 に答える
1
HTML Agility Packを使用 して、htmlを解析し、不要なテイクを削除できます。
于 2012-07-04T05:51:53.450 に答える
1
HTMLAgilityPackを確認することから始めることができます。これにより、HTMLを削除できるようになります。
これは、読み取り/書き込みDOMを構築し、プレーンXPATHまたはXSLTをサポートするアジャイルHTMLパーサーです(実際には、XPATHまたはXSLTを理解して使用する必要はありません。心配しないでください...)。これは、「Web外」のHTMLファイルを解析できるようにする.NETコードライブラリです。パーサーは、「現実世界」の不正な形式のHTMLに対して非常に寛容です。オブジェクトモデルは、System.Xmlを提案するものと非常に似ていますが、HTMLドキュメント(またはストリーム)用です。
于 2012-07-04T05:52:59.780 に答える