Pythonで美しいスープを使用しています。
URL の例を次に示します。
http://www.locationary.com/place/en/US/Ohio/Middletown/McDonald%27s-p1013254580.jsp
HTML にはたくさんのタグがあり、どれを見つけるかを指定できる唯一の方法は ID を使用することです。私が見つけたいのは電話番号だけです。タグは次のようになります。
<td class="dispTxt" id="value_xxx_c_1_f_8_a_134242498">5134231582</td>
同じ Web サイトの別の URL にアクセスしたことがありますが、電話番号タグの ID がほぼ同じであることが毎回わかりました。常に同じままである部分は次のとおりです。
'value_xxx_c_1_f_8_a_'
ただし、その後の数字は常に変化します。Beautiful Soup に ID の一部を探して一致させ、他の部分を正規表現のように数字にする方法はありますか?
また、タグを取得したら、どうすれば正規表現を使用せずに電話番号を抽出できるのでしょうか? Beautiful Soup でそれができるかどうかはわかりませんが、おそらく正規表現よりも簡単でしょう。