c# - C＃を使用してスクレイピングされたデータをフィルタリングする

Question

ウェブサイトのページからデータを取得しました。ただし、HTMLタグとプレーンテキストの両方が含まれています。このスクレイピングされたデータから不要なデータ（タグ、スクリプト、不要なテキストなど）をフィルタリングするにはどうすればよいですか。少なくとも、それを行うためのいくつかのアプローチを提案します。

score 1 · Accepted Answer

HTML Agility Packを使用して、htmlを解析し、不要なテイクを削除できます。

HTMLAgilityPackの使用方法

score 1 · Accepted Answer

HTMLAgilityPackを確認することから始めることができます。これにより、HTMLを削除できるようになります。

これは、読み取り/書き込みDOMを構築し、プレーンXPATHまたはXSLTをサポートするアジャイルHTMLパーサーです（実際には、XPATHまたはXSLTを理解して使用する必要はありません。心配しないでください...）。これは、「Web外」のHTMLファイルを解析できるようにする.NETコードライブラリです。パーサーは、「現実世界」の不正な形式のHTMLに対して非常に寛容です。オブジェクトモデルは、System.Xmlを提案するものと非常に似ていますが、HTMLドキュメント（またはストリーム）用です。

c# - C＃を使用してスクレイピングされたデータをフィルタリングする

2 に答える 2

Related

Reference