私はPythonとプログラミングにかなり慣れていません;-)そして私はたった1ページで6000行を超えるウェブサイトからデータをスクレイピングするためのプログラムを書いていますが、それらの約20000千をスクレイピングするつもりです。私はPython2.7.4を使用しています
正規表現の使用方法に関するチュートリアルを見たことがありますが、うまくいきませんでした。私は特定のタグを見つけるためにBeautifulSoupを使用していますが、実際にはそのようなタグを見つける必要があります。
<tr class="room_loop_counter1 maintr">
<tr class="room_loop_counter1 extendedRow">
<tr class="room_loop_counter2 maintr odd">
<tr class="room_loop_counter2 extendedRow odd">
<tr class="room_loop_counter3 maintr">
<tr data-occupancy="2" class="room_loop_counter1 ">
<tr data-occupancy="2" class="room_loop_counter2 odd">
<tr data-occupancy="3" class="room_loop_counter3 ">
<tr data-occupancy="3" class="room_loop_counter4 odd">
など。room_loop_counter1,3の後の引用符の前のスペースについてはよくわかりません。
次のコード行に合う式を書き込もうとしていました。
soup = BeautifulSoup(html_part)
av = soup.find_all('tr', class_=REGULAR_EXP)
REGULAR_EXP = re.compile('"room_loop_counter"\d\s.')
しかし、私は明らかにクラスの間違った正規表現を書きます
有効なものを書く方法は?すべての「room_loop_counter」の後に任意の数の文字(数字、スペース、文字、ただし改行文字ではない)が続く式である必要があると思います。よろしくお願いします。