python - html5libは

Question

チュートリアルの最初のステップでは、html5libかなり混乱した動作が見られます。

import html5lib
f = open("mydocument.html")
doc = html5lib.parse(f)

これにより、カスタムの「シンプルツリー」形式でツリーが返されます。

ファイルとして、私は通常のhtmlドキュメントを持っています。しかし、私の場合、これは次のとおりです。

<None>
>>> doc is None
False

大丈夫ではないと思いますが、どうなるかわかりません。

編集

read開いたファイルでメソッドを呼び出すと、ファイルが文字列として返されます。

f = open("mydocument.html")
f.read()
# returns string with html

そして、の後doc = html5lib.parse(f)にf.read()、ファイルがすでに読み取られたファイルのように、空の文字列を返します。

score 1 · Accepted Answer