c# - HTML テキストと画像を Windows phone にフェッチ/スクレイピングするにはどうすればよいですか?

Question

こんにちは、知りたいのですが、Windows phone のリスト (ul, li) にある HTML サイトのテキストをスクレイピングするにはどうすればよいですか。RSSフィードリーダーを作りたいです。詳しく教えてください。私は HTMLAgilityPack の初心者です。ありがとう。

score 0 · Accepted Answer

これはあなたが考えるほど単純ではありません。HTMLAgility パックを使用して、HTML コンテンツを解析および正規化する必要があります。ただし、各ノードを調べて、それがコンテンツノードであるかどうかを評価する必要があります。つまり、DIV や埋め込みなどを無視する必要があります。

私はあなたが始めるのを手伝おうとします。

ドキュメントを読む

Uri url = new Uri(<Your url>);
HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack.HtmlWeb();
HtmlAgilityPack.HtmlDocument document = web.Load(url.AbsoluteUri);

画像タグとテキストタグを抽出する方法は次のとおりです

var docNode = documentNode;
// if you just want all text withing the document then life is simpler.
string htmlText = docNode.InnerText;

// Get images
IEnumerable<HtmlNode> imageNodes = docNode.Descendants("img");
// Now iterate through all the images and do what you like...

Readability/Instapaper のようなクリーンアップを実装する場合は、 https: //github.com/marek-stoj/NReadability から NReadability をダウンロードします。

c# - HTML テキストと画像を Windows phone にフェッチ/スクレイピングするにはどうすればよいですか?

1 に答える 1

Related

Reference