0

urllib2 から受け取った html には、Firefox で URL のソースを表示したときに確認できる数十のデータ フィールドが欠落しています。アドバイスをいただければ幸いです。これは次のようになります。

FireFoxビューソースから:

# ...<td class=td6>as</td></tr></thead>|ManyFields|<br></div><div id="c1">...

urllib2 から html を返す:

# ...<td class=td6>as</td></tr></thead>|</table>|<br></div><div id="c1">...
4

2 に答える 2

2

あなたが取得しているページには多くのJavascriptが含まれているようです。おそらく、Firefox で最後に表示される情報を作成する際に Javascript が協力している (少なくともその一部は、ページのコンテンツを積極的に変更している)。JS が豊富なページをスクレイピングする必要がある場合、 Seleniumを介して実際のブラウザーを自動化するのが最善の策です。

于 2009-10-07T03:43:09.180 に答える
0

表示されている余分なコンテンツは JavaScript によって生成されています。これは生の HTML ドキュメントの一部ではないため、urllib2 などのプレーンな HTTP フェッチャーには存在しません。

于 2009-10-07T03:48:52.477 に答える