ruby-on-rails - Rails + MediaWiki API for Wikipedia データ抽出

Question

検索語に基づいて、Rails を使用してウィキペディアからデータを抽出しようとしています。

例えば、

1) String "American Idol" がある場合、それを Wikipedia に渡し、それに関連する記事のリストを取得します。私の目標は、最初の 3 つのハイパーリンクを Web サイトに表示することです。

2) さらに一歩進めると、ウィキペディアから小さなデータを抽出する必要があります。たとえば、インフォボックスや、ウィキペディアの記事の最初の数語などです。

任意のヒント？

ありがとう！

score 5 · Accepted Answer

スクリーンスクレイピングに頼る必要はありません。MediaWiki には、まさにこの種のことのための非常に包括的な APIがあります。便利な Ruby ラッパーについては、https://github.com/jpatokal/mediawiki-gatewayを参照してください。

または、インフォボックスなどのデータのみに関心がある場合は、DBpediaで Wikipedia のデータベースバージョンを参照してください。

score 1 · Accepted Answer

この gem は検索の最初の結果だけを取得しているように見えますが、ドキュメントを参照して確認してください。

コンテンツに関しては、ページを取得すると、gem を使用して、記事、リンク、画像などのさまざまなコンテンツにアクセスできます。

score 0 · Accepted Answer

これを行うには、mechanizeとnokogiriを使用します。これはそのための優れたチートシートです。

MechanizeはWebサイトの呼び出しをシミュレートするためのツールボックスであり、nokogiriはhtml/xmlパーサーです。それを理解するのは簡単なはずです。

3 に答える 3