1

ロンドン 2012 でのオリンピック メダル数を作り直し、メダルの価値をより反映させたいと考えています。現在は金メダル順のみのソートとなっています。ポイントで再リストしたいので、ゴールド=4、シルバー=2、ブロンズ=1にして、新しいより合理的なリストを作成します。おそらく以前のランクを覚えておき、新しいランク列も追加したいと思います。

機械化してサイトから生データを取得し、データを行と列に解析し、新しいカウントを適用してから、リストを作り直したいと思います。

http://www.london2012.com/medals/medal-count/のソースから、各国には次のようなメダルのブロックがあります。

<span class="countryName">Canada</span></a></div></div></td><td class="gold c">0</td><td class="silver c">2</td><td class="bronze c">5</td>

agent.get('http://www.london2012.com/medals/medal-count') を使用すると、リスト全体が表示されます。特定のスパンとテーブル データを解析する方法は?

ランクも覚えておく必要があるので、新しいページを作成するときに新しいランクを横に置きます。

データの解析と記憶の機械化に関するヒントは本当に役に立ちます。もっと重要なことは、このようなことをする際のあなたの思考プロセスです。これはコードの回答である必要はありません

ありがとう

4

2 に答える 2

1

この Medals API が役に立つかもしれません (質問が特に Mechanize に関するものではない場合)

http://apify.heroku.com/resources/5014626da8cdbb0002000006

Nokogiri を使用してサイトを解析し、出力は JSON として利用できます。

http://apify.heroku.com/api/olympics2012_medals.json

于 2012-08-11T20:00:08.837 に答える