1

さまざまなページのページ ソースからページ タイトルを取得しようとしています。しかし、いくつかのページが次のようなタイトルを持っているとしましょう:

"This is an example," ABC.

""" のような html が含まれています。C# で文字列を使用してこのタイトルを取得すると、すべてが取得され、表示中に上記のように表示されますが、これは間違っています。html を無視するか、考慮に入れる方法はありますかc#の値?

私も htmlagilitypack を使用しているので、その中の何でも構いません。

4

2 に答える 2

3

WebUtility.HtmlDecodeHTML のデコードに使用できます。MSDNのリンク:

WebUtility.HtmlDecode(""This is an example," ABC.");

ちょうど使用:

using System.Net;

結果は次のようになります: "\"これは例です\" ABC."

HtmlEntity.DeEntitizeで使用することもできますHTML Agility Pack:

HtmlEntity.DeEntitize(string text)
于 2012-09-29T16:50:09.280 に答える
0

ページ タイトルに何が含まれているかわかりません。時々そこには混乱があります。私の提案は、文字列をそのまま取得し、表示/保存する前に処理することです。

この場合、解決策は簡単です。

"

対応する文字で。

HTML ドキュメントを読んでいくつかのタグを抽出するたびに、タグが閉じないように注意してください。ユーザーがタイトル タグを閉じるのを忘れた場合、ページ全体がその行に表示されます。

于 2012-09-29T16:43:00.613 に答える