小さなスクレイピングスクリプトがあります。私は2000の名前のファイルを持っており、これらの名前を使用してYouTubeでビデオIDを検索しています。量が多いため、すべてのIDを取得するのにかなり長い時間がかかるため、一度に取得することはできません。私が欲しいのは、最後のスクレイプをどこで終了したかを見つけて、その位置から開始することです。これを行うための最良の方法は何ですか?使用済みの名前をリストに追加して、リストに含まれているかどうかを確認することを考えていました。含まれていない場合は、スクレイピングを開始しますが、これを行うためのより良い方法があるでしょうか。(私はそう願っています)。
ファイルとスクレイプされたIDから名前を取得する部分。私が欲しいのは、スクレイピングをやめたとき、次にそれを開始したときに、最初からではなく、前回終了した時点から実行されることです。
index = 0
for name in itertools.islice(f, index, None):
parameters = {'key': api_key, 'q': name}
request_url = requests.get('https://www.googleapis.com/youtube/v3/search?part=snippet&maxResults=1&type=video&fields=items%2Fid', params = parameters)
videoid = json.loads(request_url.text)
if 'error' in videoid:
pass
else:
index += 1
id_file.write(videoid['items'][0]['id']['videoId'] + '\n')
print videoid['items'][0]['id']['videoId']