2

Mediawiki apiウィキペディアのページからコンテンツを取得するために使用しています。次のクエリを生成するコードを作成しました (たとえば):

http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&rvsection=0&titles=hawaii

これは、ハワイに関するウィキペディアのページから先頭の段落のみを取得します。

問題は、お気づきかもしれませんが、次のような無関係な部分文字列がたくさんあることです。

"[[Molokai|Moloka{{okina}}i]], [[Lanai|Lāna{{okina}}i]], [[Kahoolawe|Kaho{{okina}}olawe]], [[Maui]] and the [[Hawaii (island)|".

これらのバーケット [[]] はすべて関連性がありません。そのようなページから「クリーンな」コンテンツのみを取得するためのエレガントな方法があるかどうか疑問に思います。

前もって感謝します。

4

2 に答える 2

1

次のクエリを使用して、Wikipedia からクリーンな HTML テキストを取得できます。

https://en.wikipedia.org/w/api.php?action=query&prop=extracts&titles=hawaii

HTML を使用せずにプレーン テキストのみが必要な場合は、次のようにします。

https://en.wikipedia.org/w/api.php?action=query&prop=extracts&titles=hawaii&explaintext

于 2015-11-12T10:14:01.147 に答える