1

私はPythonが初めてで、BeautifulSoupを使用してHTMLページを解析し、コンテンツの一部を抽出しようとしています. 私が抱えている問題は、解析する必要がある URL が動的であるため、BeautifulSoup ショーのすべての例のように urllib2.urlopen にハード コードできないことです。

SELF を使用してブラウザーから現在の URL を抽出しようとしましたが、これを機能させることができませんでした。SELF を使用してブラウザーから現在の URL を抽出する方法、または現在の URL に BeautifulSoup をアタッチする方法の例を投稿できますか?

どんな助けでも大歓迎です。

これまでの私のコードは次のとおりです。

import os
import time

import win32api
import win32com.client
import win32con

from pywinauto import application

class A(object):
  def __init__(self):
    self.x = self.request.url

  def method_a(self):
    print self.x

#start IE with a start URL of what was passed in
app = application.Application()
app.Start(r"c:\program files\internet explorer\iexplore.exe %s"% "http://www.cyclestreets.net/journey")
time.sleep(3)
#ie = app.window_(title_re = "CycleStreets Cycle journey planner")
ie = app.window_(title_re = ".*CycleStreets.*")

a = A()
a.method_a()

これを実行すると、AttributeError: 'A' object has no attribute 'request' というメッセージが表示されます

4

2 に答える 2

0

少し混乱していると思います。あなたのクラス「A」にはこれがあります:

class A(object):
  def __init__(self):
    self.x = self.request.url

init関数でxの値をself.request.urlに設定します。現時点ではオブジェクトにself.requestが存在しないため、これは不平を言っています。

于 2012-04-17T13:57:43.430 に答える