Beautiful Soup 4 を使用してページをスクレイピングしています。不要なテキスト ブロックがあります。
<p class="MsoNormal" style="text-align: center"><b>
<span lang="EN-US" style="font-family: Arial; color: blue">
<font size="4">1 </font></span>
<span lang="AR-SA" dir="RTL" style="font-family: Arial; color: blue">
<font size="4">ـ</font></span><span lang="EN-US" style="font-family: Arial; color: blue"><font size="4">
сүрә фатиһә</font></span></b></p>
特徴的なのは、タグが付いていることです。私はすでに findall() を使用してすべてを取得しました
タグ。だから今、私は次のようなループを持っています:
for el in doc.findall('p'):
if el.hasChildTag('b'):
break;
残念ながらbs4には「hasChildTag」機能がありません