私はHTMLファイルを持っています:
<html>
<p>somestr
<sup>1</sup>
anotherstr
</p>
</html>
テキストを次のように抽出したいと思います。
somestr 1 anotherstr
しかし、私はそれを行う方法を理解することはできません。数値文字列を上付き文字に変換する関数を作成したto_sup()
ので、最も近いものは次のようになります。
for i in doc.xpath('.//p/text()|.//sup/text()'):
if i.tag == 'sup':
print to_sup(i),
else:
print i,
でもタグ名を取得する方法がElementStringResult
ないようで、少し迷ってしまいました。それを解決する方法はありますか?