CsQuery を使用してワードプレスのブログ記事を解析し、テキスト クラスタリング分析を行っています。<p>
関連するノードからテキストを削除したいと思います。
var content = dom["div.entry-content>p"];
if (content.Length == 1)
{
System.Diagnostics.Debug.WriteLine(content[0].InnerHTML);
System.Diagnostics.Debug.WriteLine(content[0].InnerText);
}
投稿の1つでは、InnerHTML
次のようになります。
An MIT Europe project that attempts to <a title="Wired News: Gizmo Puts Cards
on the Table" href="http://www.wired.com/news/technology/0,1282,61265,00.html?
tw=rss.TEK">connect two loved ones seperated by distance</a> through the use
of two tables, a bunch of RFID tags and a couple of projectors.
そして、InnerText
このような対応
2 つのテーブル、多数の RFID タグ、および 2 台のプロジェクターを使用して試行する MIT ヨーロッパ プロジェクト。
つまり、内側のテキストにアンカー テキストがありません。自分で HTML を解析することはできますが、CsQuery に教えてもらう方法があることを願っています。
2 つのテーブル、多数の RFID タグ、および 2 台のプロジェクターを使用して、離れた場所にいる 2 人の愛する人を接続しようとする MIT ヨーロッパ プロジェクト。
(イタリック体) これはどうやって入手すればよいですか?