初めての Python スクリプトを作成しようとしています。Web サイトから情報を取得するプログラムを作成したいと考えています。
Web サイトを開き、すべてのデータを読み取り、データをバイトから文字列に変換することができました。
import urllib.request
response = urllib.request.urlopen('http://www.imdb.com/title/tt0413573/episodes?season=10')
website = response.read()
response.close()
html = website.decode("utf-8")
print(type(html))
print(html)
文字列は大量です。それをリストに変換してリストを反復処理するか、単に文字列として保持するかはわかりません。
airdate
すべてのキーワードを見つけて、文字列の次の行を取得した場合、私は何をしたいですか。
文字列をスクロールすると、これは関連するビットです。
<meta itemprop="episodeNumber" content="10"/>
<div class="airdate">
Nov. 21, 2013
</div>
これは、文字列内で何度も発生します。私がやろうとしているのは、文字列をループしてこの結果を返すことです:
"episodeNumber" = some number
"airdate" = what ever date
残業の場合、これは文字列で発生します。私は試した:
keywords = ["airdate","episodeNumber"]
for i in keywords:
if i in html:
print (something)
私は正しい方法で自分自身を説明していることを願っています. 必要に応じて質問を編集します。