0

さまざまなフィルター処理された結果を返すループ スクリプトがあり、このデータをさまざまなフィルター クラスごとに配列として返すことができます。ただし、これらすべての配列を結合する最善の方法はわかりません。

import mechanize
import urllib
import json
import re
import random
import datetime
from sched import scheduler
from time import time, sleep
from sets import Set

##### Code to loop the script and set up scheduling time
s = scheduler(time, sleep)
random.seed()

##### Code to stop duplicates part 1 
userset = set ()

def run_periodically(start, end, interval, func):
    event_time = start
    while event_time < end:
        s.enterabs(event_time, 0, func, ())
        event_time += interval + random.randrange(-5, 10)
    s.run()

##### Code to get the data required from the URL desired
def getData():  
    post_url = "URL OF INTEREST"
    browser = mechanize.Browser()
    browser.set_handle_robots(False)
    browser.addheaders = [('User-agent', 'Firefox')]

##### These are the parameters you've got from checking with the aforementioned tools
    parameters = {'page' : '1',
                  'rp' : '250',
                  'sortname' : 'race_time',
                  'sortorder' : 'asc'
                 }
##### Encode the parameters
    data = urllib.urlencode(parameters)
    trans_array = browser.open(post_url,data).read().decode('UTF-8')

    xmlload1 = json.loads(trans_array)
    pattern2 = re.compile('/control/profile/view/(.*)\' title=')
    pattern4 = re.compile('title=\'posted: (.*) strikes:')
    pattern5 = re.compile('strikes: (.*)\'><img src=')

    for row in xmlload1['rows']:
        cell = row["cell"]

##### defining the Keys (key is the area from which data is pulled in the XML) for use in the pattern finding/regex

        user_delimiter = cell['username']
        selection_delimiter = cell['race_horse']

        user_numberofselections = float(re.findall(pattern4, user_delimiter)[0])
        user_numberofstrikes = float(re.findall(pattern5, user_delimiter)[0])
        strikeratecalc1 = user_numberofstrikes/user_numberofselections
        strikeratecalc2 = strikeratecalc1*100
        userid_delimiter_results = (re.findall(pattern2, user_delimiter)[0])


##### Code to stop duplicates throughout the day part 2 (skips if the id is already in the userset)

        if userid_delimiter_results in userset: continue;
        userset.add(userid_delimiter_results)

        arraym = ""
        arrayna = ""

        if strikeratecalc2 > 50 and strikeratecalc2 < 100):

            arraym0 = "System M" 
            arraym1 = "user id = ",userid_delimiter_results
            arraym2 = "percantage = ",strikeratecalc2,"%"
            arraym3 = ""
            arraym = [arraym0, arraym1, arraym2, arraym3]

        if strikeratecalc2 > 0 and strikeratecalc2 < 50):

            arrayna0 = "System NA" 
            arrayna1 = "user id = ",userid_delimiter_results
            arrayna2 = "percantage = ",strikeratecalc2,"%"
            arrayna3 = ""
            arrayna = [arrayna0, arrayna1, arrayna2, arrayna3]


getData()

run_periodically(time()+5, time()+1000000, 10, getData)

私ができるようにしたいのは、「arraym」と「arrayna」の両方を 1 つの最終的な配列として返すことですが、スクリプトのループごとにスクリプトのループの性質により、古い「arraym」/「arrayna」現在、すべてのデータを含む 1 つの配列を作成しようとした結果、「systemm」の最後のユーザー ID と「sustemna」の最後のユーザー ID が作成されました。これは明らかに、ループを実行するたびに古い「arraym」と「arrayna」を上書きするためですが、これを回避する方法がわからないため、すべてのデータを 1 つの配列に蓄積できます。私は累積で 2 週間コーディングを行っているので、この問題を克服するための簡単な機能があるかもしれないことに注意してください。

よろしくAEA

4

1 に答える 1