0

lxmlでxmlファイルを開いていますが、新しいxmlファイルに保存する前にすでに多くの編集を行っていますが、これはすべて正常に機能しています。開いた xml 内に、Web ページにリンクする URL があります。Web ページには、開いている xml で記録して使用したい値がいくつかあります。検索しましたが、どこから始めればよいかわかりません。

敬具。

アップデート -

以下のコードを使用して xml から URL を取得していますが、これは機能しています。次に、すべてのページを data 変数に読み込むことができます。これは正常に出力されます。

url = tree.find("//video/products/product/read_only_info/read_only_value[@key='storeURL-GB']")
if url is not None:
    url = url.text
    data = urllib2.urlopen(url)
    data = data.read()
    print data

Web ページに埋め込まれている特定の文字列を見つけるにはどうすればよいですか。取得したい Web ページ データの一部を次に示します。

<div id="content">

  <div class="padder">

    <div id="title" class="intro">
      <div class="left">
        <h1>This is the title</h1>
        &nbsp;&nbsp;<span rating-system="bbfc" rating-id="37" class="content-rating">15</span>
        <h2>this is more text</h2>
      </div>
      <div class="right">
        <a href="https://rthuere.erwerwer.ghty4e.fdfsdf.com" class="view-more">View More In Sci-Fi &amp; Fantasy</a>

      </div>

「SF & ファンタジーでもっと見る」という値、またはその他の値を取得する必要があります。

敬具。

4

2 に答える 2

0

すべての a ノードのテキストを取得したい場合は、Beautifulsoupを使用して実行できます。

soup = BeautifulSoup(html_page)
for link in soup.findAll('a'):
    print link.text

これはあなたの質問に答えていますか?

于 2013-07-11T16:17:59.780 に答える