c# - URLを使用してページのメインコンテンツを取得する

Question

特定のURLからページのメインコンテンツを取得できる必要があります。私がする必要があることの非常に良い例は次のとおりです：http ：//embed.ly/docs/explore/preview？url = http％3A％2F％2Fedition.cnn.com％2F2012％2F08％2F20％2Fworld％ 2Fmeast％2Fflight-phobia-boy-long-way-home％2Findex.html％3Fiid％3Darticle_sidebar

私はC＃言語でasp.netを使用しています。

score 4 · Accepted Answer

HTMLページを解析してメインコンテンツを推測するのは簡単なプロセスではありません。NReadabilityとHtmlAgilityPackを使用することをお勧めします

これがどのように行われるかの例です。NReadabilityがページをトランスコードした後、メインテキストは常にdividで表示されます。readInner

string url = "http://.......";

var t = new NReadability.NReadabilityWebTranscoder();
bool b;
string page = t.Transcode(url, out b);

if (b)
{
    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
    doc.LoadHtml(page);

    var title = doc.DocumentNode.SelectSingleNode("//title").InnerText;
    var text = doc.DocumentNode.SelectSingleNode("//div[@id='readInner']")
                  .InnerText;
}

score 0 · Accepted Answer

おとこ、

WebClientクラスまたはWebRequestクラスの実装を使用して作成されていると思います。これを使用すると、ページのすべてのコンテンツをダウンロードしてから、任意のデータマイニングアルゴリズムを使用して、必要な情報を取得できます。

[]の

c# - URLを使用してページのメインコンテンツを取得する

2 に答える 2

Related

Reference