いくつかのスクリプトブロックを含む HTML ページを解析しています。
<script type="text/javascript">
// some code
</script>
<script type="text/javascript">
foo(arg1, arg2);
// some code
</script>
foo関数の引数「arg1」と「arg2」を抽出する必要があります。現在、 scriptタグの内部コンテンツを取得できます。
def parse_foo(pageContent):
soup = BeautifulSoup(pageContent)
scriptTags = soup.find_all('script')
for script in scriptTags:
tagContent = script.get_text()
if tagContent.count('foo') > 0:
return tagContent
return ''
BeautifulSoup を使用して引数を取得する方法はありますか、それとも正規表現を使用する必要がありますか?