2

プログラムでウィキペディアから記事を取得する必要があり、セクションとそのコンテンツを HTML または生のテキストの形式で取得できる必要があります。

このページを例に取ります: http://en.m.wikipedia.org/wiki/LINQ

この .NET Api を見つけましたが、記事の取得をサポートしていないようです。

https://github.com/svick/LINQ-to-Wiki

使用できる .NET ライブラリはありますか? または、Web サイトの HTML コンテンツを解析する必要がありますか?

PSウィキペディアにAPIがあることは知っていますが、それを使用して必要なことを行う方法の例は見当たりません。

4

2 に答える 2

6

API を使用して記事のテキストを取得する方法は次のようになります。

http://en.wikipedia.org/w/api.php?action=query&titles=LINQ&prop=revisions&rvprop=content

LINQ to Wiki を使用すると、次のようになります。

string text =
    wiki.CreateTitlesSource("LINQ")
        .Select(p => p.revisions().FirstOrDefault().value)
        .ToEnumerable()
        .Single();

このような一般的な操作の場合、これは非常に複雑なコードです。このような一般的な操作にヘルパー メソッドを追加することを考えていましたが、まだ実現していません。

于 2013-07-29T19:43:24.853 に答える
4

これにはいくつかの方法があります。

HtmlAgilityPackを使用して html を解析します。そのページの外観から、すべてのセクションがフォーマットされているようです

<div class="section">

また、私がLINQ to WikiAPIから垣間見ることができるものから、カテゴリごとにページデータを取得できます(これは、あなたが参照しているセクションでもあると思います)。さらなる分析が必要ですが、以下を検討することをお勧めします。

于 2013-07-29T16:37:16.527 に答える