python - xmlファイルを開き、その中のURLを見つけ、リンクを開いて値を検索する - python lxml

Question

lxmlでxmlファイルを開いていますが、新しいxmlファイルに保存する前にすでに多くの編集を行っていますが、これはすべて正常に機能しています。開いた xml 内に、Web ページにリンクする URL があります。Web ページには、開いている xml で記録して使用したい値がいくつかあります。検索しましたが、どこから始めればよいかわかりません。

敬具。

アップデート -

以下のコードを使用して xml から URL を取得していますが、これは機能しています。次に、すべてのページを data 変数に読み込むことができます。これは正常に出力されます。

url = tree.find("//video/products/product/read_only_info/read_only_value[@key='storeURL-GB']")
if url is not None:
    url = url.text
    data = urllib2.urlopen(url)
    data = data.read()
    print data

Web ページに埋め込まれている特定の文字列を見つけるにはどうすればよいですか。取得したい Web ページデータの一部を次に示します。

<div id="content">

  <div class="padder">

    <div id="title" class="intro">
      <div class="left">
        <h1>This is the title</h1>
        &nbsp;&nbsp;<span rating-system="bbfc" rating-id="37" class="content-rating">15</span>
        <h2>this is more text</h2>
      </div>
      <div class="right">
        <a href="https://rthuere.erwerwer.ghty4e.fdfsdf.com" class="view-more">View More In Sci-Fi &amp; Fantasy</a>

      </div>

「SF & ファンタジーでもっと見る」という値、またはその他の値を取得する必要があります。

敬具。

score 0 · Accepted Answer

すべての a ノードのテキストを取得したい場合は、Beautifulsoupを使用して実行できます。

soup = BeautifulSoup(html_page)
for link in soup.findAll('a'):
    print link.text

これはあなたの質問に答えていますか？

python - xmlファイルを開き、その中のURLを見つけ、リンクを開いて値を検索する - python lxml

2 に答える 2

Related

Reference