ruby - Wiki引用API?

Question

JSON 経由でウィキクォートページの構造化バージョンを取得したい (基本的にはすべてのフレーズが必要)

例: http://en.wikiquote.org/wiki/Fight_Club_(映画)

私は試してみました：http://en.wikiquote.org/w/api.php?format=xml&action=parse&page=Fight_Club_(film)&prop=text

しかし、私はすべての HTML ソースコードを取得します。配列の要素として各フェーズが必要です

どうすればDBPEDIAでそれを達成できますか?

score 4 · Accepted Answer

1 つには、DBpedia を使用してウィキの引用を照会できるかどうかわかりません。2 つ目に、DBpedia は構造化された方法で情報ボックスデータのみを提供し、構造化された方法で記事のコンテンツを提供することはまったくありません。代わりに、Media wiki API を使用してデータを取得することができます。

編集

あなたが試みているURIはあなたにテキストを与えるので、これは物事をより簡単にしますが、完全ではありません.

コンソールで次のコードを試してください。

require 'Nokogiri'

content = JSON.parse(open("http://en.wikiquote.org/w/api.php?format=json&action=parse&page=Fight_Club_%28film%29&prop=text").read)

data = content['parse']['text']['*']

xpath_data = Nokogiri::HTML data

xpath_data.xpath("//ul/li").map{|data_node| data_node.text}

これは私が答えに最も近いものです。もちろん、これは完全に正しいわけではありません。不要なデータが大量に得られるからです。しかし、掘り下げてNokogiri、xpath必要なノードを特定する方法を見つければ、少なくとも 90% の確率で正しい見積もりを提供するソリューションを得ることができます。

score 1 · Accepted Answer

形式を JSON に変更するだけです。詳細については、ウィキペディア API を参照してください。 http://en.wikiquote.org/w/api.php?format=json&action=parse&page=Fight_Club_(映画)&prop=text

ruby - Wiki引用API?

2 に答える 2

編集

Related

Reference