0

これは非常に単純なデバッグの質問かもしれません (私は単独でコーディングしていません) スクレイピングされた xml を解析するループ コードがあります。ユーザー ID をセットに格納した結果、ユーザー ID がユーザーセットに既に存在する場合、スクリプトは xml の次の行にスキップします。このスクリプトの結果を RSS として出力したいと考えています。そのための潜在的な方法論がありますが、最初にデータを何らかの変数として保存する必要があります。

私はこれを試みましたが、毎回、最後のユーザー ID がセットに保存されているという問題が発生するようです。壊れたコードを提供するのではなく、作業コードの例を同封します。これには、結果の出力を変数として定義するためのハッシュ化された試みは含まれていません。

import mechanize
import urllib
import json
import re
import random
import datetime
from sched import scheduler
from time import time, sleep

######Code to loop the script and set up scheduling time

s = scheduler(time, sleep)
random.seed()

def run_periodically(start, end, interval, func):
    event_time = start
    while event_time < end:
        s.enterabs(event_time, 0, func, ())
        event_time += interval + random.randrange(-5, 45)
    s.run()

###### Code to get the data required from the URL desired
def getData():  
    post_url = "URL OF INTEREST"
    browser = mechanize.Browser()
    browser.set_handle_robots(False)
    browser.addheaders = [('User-agent', 'Firefox')]

######These are the parameters you've got from checking with the aforementioned tools
    parameters = {'page' : '1',
              'rp' : '250',
              'sortname' : 'roi',
              'sortorder' : 'desc'
             }
#####Encode the parameters
    data = urllib.urlencode(parameters)
    trans_array = browser.open(post_url,data).read().decode('UTF-8')

    xmlload1 = json.loads(trans_array)
    pattern1 = re.compile('>&nbsp;&nbsp;(.*)<')
    pattern2 = re.compile('/control/profile/view/(.*)\' title=')
    pattern3 = re.compile('<span style=\'font-size:12px;\'>(.*)<\/span>')

##### Making the code identify each row, removing the need to numerically quantify the     number of rows in the xmlfile,
##### thus making number of rows dynamic (change as the list grows, required for looping function to work un interupted)

    for row in xmlload1['rows']:
        cell = row["cell"]

##### defining the Keys (key is the area from which data is pulled in the XML) for use in the pattern finding/regex

        user_delimiter = cell['username']
        selection_delimiter = cell['race_horse']

        if strikeratecalc2 < 12 : continue;

##### REMAINDER OF THE REGEX DELMITATIONS

        username_delimiter_results = re.findall(pattern1, user_delimiter)[0]
        userid_delimiter_results = (re.findall(pattern2, user_delimiter)[0])
        user_selection = re.findall(pattern3, selection_delimiter)[0]

##### Code to stop duplicate posts of each user throughout the day

    userset = set ([])
    if userid_delimiter_results in userset: continue;

##### Printing the results of the code at hand

        print "user id = ",userid_delimiter_results
        print "username = ",username_delimiter_results
        print "user selection = ",user_selection
        print ""

##### Code to stop duplicate posts of each user throughout the day  part 2 (udating set to add users already printed to the ignore list)

    userset.update(userid_delimiter_results)

    getData()

    run_periodically(time()+5, time()+1000000, 300, getData)

変数を生成しようとしたときに発生した問題 (配列として生成しようとした) は、何らかの形でコードに最後の userset.update(userid_delimiter_results) が欠落していたため、フィードの最後のエントリが実行のたびに繰り返されることでした。 「userset」によると、問題のユーザー ID がログに記録されていなかったため、コード。このコードの結果を変数として出力できるようにする簡単な方法があれば、大歓迎です。よろしくAEA

4

1 に答える 1