Web サイトのデータを解析する必要があります: http://www.sarkari-naukri.in/jobs-by-qualification/b-tech/sub-centre-manager.html
BeautifulSoup のチュートリアルのほとんどは、リンクを解析するためのものであり、リンクから必要なデータを詳細に解析するためのものではありません。
今、私はpythonのBeautifulSoupモジュールのいくつかのチュートリアルを経て、必要なデータ文字列をダウンロードするためにこのスクリプトを書きました
<div id="content_box">
<div id="content" class="hfeed">...
私が使用しているスクリプト:
from BeautifulSoup import BeautifulSoup
import urllib2
def main():
url = "http://www.sarkari-naukri.in/jobs-by-qualification/b-tech/sub-centre-manager.html"
data = urllib2.urlopen(url).read()
bs = BeautifulSoup(data)
postdata = bs.find('div', {'id': 'content_box'})
postdata= [s.getText().strip() for s in postdata.findAll('div', {'class':'scdetail'})]
fname = 'postdata.txt'
with open(fname, 'w') as outf:
outf.write('\n'.join(postdata))
if __name__=="__main__":
main()
しかし、このスクリプトは私が期待するものを実行しません。賢明なように投稿データをファイルに取得したい:
タイトル: チャンディーガル国立電子情報技術研究所のサブセンターマネージャーの欠員
サブセンターマネージャー
電子情報技術総合研究所
住所: NIELIT, Chandigarh SCO: 114-116 Sector 17B
郵便番号: 160017
都市チャンディーガルなど....
助けたり提案したりしてください。
ありがとう