0

要素のテキスト全体を取得して、いくつかのxhtmlを解析したいと思います。

<div id='asd'>
  <pre>skdsk</pre>
</div>

上記の例でE=div要素を開始し、取得したい

<pre>skdsk</pre>

どのように?

4

1 に答える 1

2

厳密に言えば:

from xml.dom.minidom import parse, parseString
tree = parseString("<div id='asd'><pre>skdsk</pre></div>")
root = tree.firstChild
node = root.childNodes[0]
print node.toxml()

ただし、実際には、http://www.crummy.com/software/BeautifulSoup/ライブラリを参照することをお勧めします。xhtml ドキュメントで適切な childNode を見つけ、「空白ノード」をスキップするのは面倒です。BeautifulSoup は、優れたツリー検索機能を備えた堅牢な html/xhtml パーサーです。

編集: 上記の例では、HTML を 1 つの文字列に圧縮しています。質問のようにHTMLを使用すると、改行などで「空白」ノードが生成されるため、必要なノードはchildNodes [0]にはなりません。

于 2009-03-20T15:54:51.773 に答える