チュートリアルの最初のステップでは、html5lib
かなり混乱した動作が見られます。
ドキュメントによると:
import html5lib
f = open("mydocument.html")
doc = html5lib.parse(f)
これにより、カスタムの「シンプルツリー」形式でツリーが返されます。
ファイルとして、私は通常のhtmlドキュメントを持っています。しかし、私の場合、これは次のとおりです。
<None>
>>> doc is None
False
大丈夫ではないと思いますが、どうなるかわかりません。
編集
read
開いたファイルでメソッドを呼び出すと、ファイルが文字列として返されます。
f = open("mydocument.html")
f.read()
# returns string with html
そして、の後doc = html5lib.parse(f)
にf.read()
、ファイルがすでに読み取られたファイルのように、空の文字列を返します。