0

私はこのウェブサイトからデータをスクレイピングする方法を探しています:http ://www.dectech.org/football/index.phpできればPythonを使用して。私が抱えている問題は、データがWebサイトのHTMLにハードコーディングされておらず、mochi-kit( http://mochi.github.com/mochikit/)と呼ばれるものにラップされているように見えることです。 。

調べてみたところ、何かBeautifulSoup役に立つかもしれませんが、正しく使っていないのではないかと思います。私はまたurllib、喜びなしでウェブサイトを解析するために使用しようとしました。

私の最終的な目標は、dectechのWebサイトを監視し、新しい予測がリリースされたときに、を使用して自動的にバリューベットを選択するプログラムを用意することBetfair APIです。

4

1 に答える 1

2

このURLからjavascriptによってデータが読み込まれているようです

http://www.dectech.org/cgi-bin/new_site/GetUpcomingGames.pl?divID=0

返す

{
   "games" : [
      {
         "apct" : 0.377838,
         "dpct" : 0.263445,
         "expGoalDiff" : -0.04086,
         "awayID" : "6",
         "homeID" : "17",
         "date" : "20/10/2012",
         "away" : "Chelsea",
         "home" : "Tottenham",
         "hpct" : 0.358717
      },
      {
         "apct" : 0.237829,
         "dpct" : 0.250146,
         "expGoalDiff" : 0.594234,
         "awayID" : "1",
         "homeID" : "8",
         "date" : "20/10/2012",
         "away" : "Aston Villa",
         "home" : "Fulham",
         "hpct" : 0.512025
      }, /* shortened for brevity */

信じられないほど幸運です。データをスクレイピングする必要はありません (これはトリッキーです)。必要なのは、mochi で行っているように、データを取得して解析することだけです。

Pythonのsimplejsonモジュールはそれを解析できます...

于 2012-10-15T13:02:09.780 に答える