HTMLフォームでいくつかのサイトを解析しようとしています。form-Tag の開始と終了が 1 つずつあれば問題ありません。http://www.w3schools.com/html/html_forms.aspを解析することで、最初に問題に気づきました
フォーム タグが 2 つ以上ある場合、奇妙な動作が発生します。すべての終了フォーム タグがドキュメントの最後に移動します。誰も同じ問題を抱えていますか?
基本的な Web ページの例を次に示します。
<!DOCTYPE html>
<html lang="en-US">
<head>
<title>HTML Forms and Input</title>
</head>
<body>
<p>stuff and so on</p>
<form>
First name: <input type="text" name="firstname" size="20"><br>
Last name: <input type="text" name="lastname" size="20">
</form>
<p>some text</p>
<form>
First name: <input type="text" name="firstname" size="20"><br>
Last name: <input type="text" name="lastname" size="20">
</form>
</body>
</html>
コードは次のとおりです。
#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
from bs4 import BeautifulSoup
lSoup = BeautifulSoup(open("forms2.html"))
print lSoup
そして、それは私が得たものです:
<!DOCTYPE html>
<html lang="en-US"><head>
<title>HTML Forms and Input</title>
</head>
<body>
<p>stuff and so on</p>
<form>
First name: <input name="firstname" size="20" type="text"/><br/>
Last name: <input name="lastname" size="20" type="text"/>
<p>some text</p>
<form>
First name: <input name="firstname" size="20" type="text"/><br/>
Last name: <input name="lastname" size="20" type="text"/>
</form></form></body></html>
何か案は?
手伝ってくれてありがとう!