次のような構造の XHTML ファイルがあります。
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html>
<html lang="en">
<head>
...
</head>
<body>
...
</body>
<html>
私は BeautifulSoup を使用していて、ドキュメントから XML 宣言を削除したいので、次のようになります。
<!DOCTYPE html>
<html lang="en">
<head>
...
</head>
<body>
...
</body>
<html>
XML 宣言を削除する方法が見つかりません。私が知る限り、Doctype、Declaration、Tag、または NavigableString ではないようです。これを見つけて抽出する方法はありますか?
実際の例として、次のようなコードで Doctype を削除できます (ドキュメント テキストが変数 "html" であると仮定します)。
soup = BeautifulSoup(html)
[item.extract() for item in soup.contents if isinstance(item, Doctype)]