c# - C＃でHTMLの行を文字列として読み取る方法

Question

さまざまなページのページソースからページタイトルを取得しようとしています。しかし、いくつかのページが次のようなタイトルを持っているとしましょう:

&quot;This is an example,&quot; ABC.

""" のような html が含まれています。C# で文字列を使用してこのタイトルを取得すると、すべてが取得され、表示中に上記のように表示されますが、これは間違っています。html を無視するか、考慮に入れる方法はありますかc#の値?

私も htmlagilitypack を使用しているので、その中の何でも構いません。

score 3 · Accepted Answer

WebUtility.HtmlDecodeHTML のデコードに使用できます。MSDNのリンク:

WebUtility.HtmlDecode("&quot;This is an example,&quot; ABC.");

ちょうど使用：

using System.Net;

結果は次のようになります: "\"これは例です\" ABC."

HtmlEntity.DeEntitizeで使用することもできますHTML Agility Pack:

HtmlEntity.DeEntitize(string text)

score 0 · Accepted Answer

ページタイトルに何が含まれているかわかりません。時々そこには混乱があります。私の提案は、文字列をそのまま取得し、表示/保存する前に処理することです。

この場合、解決策は簡単です。

&quot;

対応する文字で。

HTML ドキュメントを読んでいくつかのタグを抽出するたびに、タグが閉じないように注意してください。ユーザーがタイトルタグを閉じるのを忘れた場合、ページ全体がその行に表示されます。

2 に答える 2