python - BeautifulSoup タグの削除予期しない結果

翻译自：https://stackoverflow.com/questions/18857504 2013-09-17T18:42:47.503

166 次

<p>そこで、HTML コードのタグ内にあるものだけを抽出するコードを書きました。これが私のコードです

soup = BeautifulSoup(my_string, 'html')
no_tags=' '.join(el.string for el in soup.find_all('p', text=True))

実行されているほとんどの例で希望どおりに機能しますが、次のような例で気づいた

<p>hello, how are you <code>other code</code> my name is joe</p>

何も返しません。これは、タグ内に他のタグがあるためだと思い<p>ます。明確にするために、私がそれを返したいのは

hello, how are you my name is joe

つまり、タグ内のすべてが必要です<p>が、最初のレベルのみが必要です。タグ内の他のタグに囲まれているものはすべて無視したいと思い<p>ます。そのような例に対処する方法について誰かが私を助けることができますか?

python - BeautifulSoup タグの削除 予期しない結果