6

検索語に基づいて、Rails を使用してウィキペディアからデータを抽出しようとしています。

例えば、

1) String "American Idol" がある場合、それを Wikipedia に渡し、それに関連する記事のリストを取得します。私の目標は、最初の 3 つのハイパーリンクを Web サイトに表示することです。

2) さらに一歩進めると、ウィキペディアから小さなデータを抽出する必要があります。たとえば、インフォボックスや、ウィキペディアの記事の最初の数語などです。

任意のヒント?

ありがとう!

4

3 に答える 3

5

スクリーン スクレイピングに頼る必要はありません。MediaWiki には、まさにこの種のことのための非常に包括的な APIがあります。便利な Ruby ラッパーについては、https://github.com/jpatokal/mediawiki-gatewayを参照してください。

または、インフォボックスなどのデータのみに関心がある場合は、DBpediaで Wikipedia のデータベース バージョンを参照してください。

于 2011-10-27T11:25:46.047 に答える
1

使用できる別の宝石があります: https://github.com/kenpratt/wikipedia-client

この gem は検索の最初の結果だけを取得しているように見えますが、ドキュメントを参照して確認してください。

コンテンツに関しては、ページを取得すると、gem を使用して、記事、リンク、画像などのさまざまなコンテンツにアクセスできます。

于 2014-05-22T09:31:09.283 に答える
0

これを行うには、mechanizeとnokogiriを使用します。これはそのための優れたチートシートです。

http://www.e-tobi.net/blog/files/ruby-mechanize-cheat-sheet.pdf

MechanizeはWebサイトの呼び出しをシミュレートするためのツールボックスであり、nokogiriはhtml/xmlパーサーです。それを理解するのは簡単なはずです。

于 2011-10-20T05:56:55.253 に答える