BeautifulSoup を使用して、次の html のオプション テキストを取得したいと考えています。例: 2002/12 、 2003/12 などを取得したい
<select id="start_dateid">
<option value="0">2002/12</option>
<option value="1">2003/12</option>
<option value="2">2004/12</option>
<option value="3">2005/12</option>
<option value="4">2006/12</option>
<option value="5" selected="">2007/12</option>
<option value="6">2008/12</option>
<option value="7">2009/12</option>
<option value="8">2010/12</option>
<option value="9">2011/12</option>
</select>
コンテンツを取得する最良の方法は何ですか? 現在、次のコードを使用していますが、そのために美しいスープを使用する方法がわかりません。html ファイルに複数の領域が選択されている場合、結果は正しくありません。これが私がこれまでに持っているものです:
import urllib2
from bs4 import BeautifulSoup
import lxml
soup = BeautifulSoup(urllib2.urlopen("./test.html").read(),"lxml");
for item in soup.find_all('option'):
print(''.join(str(item.find(text=True))));