html - 異なる html タグ間のテキストを取得する Xpath クエリ

Question

Rを使用してスクレイプをスクリーンしています。ページを取得し、次を使用して、ページ上の特定の場所 (名前属性を持つアンカータグ内のアンカータグ) で見つかったページ上のすべてのリンクを見つけることができました。

links <- xpathSApply(doc, "//a[@name]//a/@href")

これで、Curl を使用してリンクからドキュメントを取得しました。一定量のテキストをスクレイピングしたいと考えています。テキストは常にタグの間にあるようです (ただし、テキストには他のタグがあり、次のテキストの前で終了します)

</pre><hr>Back to: <a href="#TOP">

との間のすべてのテキストを取得することにしましたが<a href="#TOP">、xpath クエリを釘付けにすることはできません。これまでのところ、私は持っています:

text <- xpathSApply(doc, '"/ //text()[preceding:://a/@href="#TOP"] and following::*//p')

誰かが私を正しい方向に向けることができますか? stackoverflow にはかなりの数の xpath の回答がありますが、常に回答を説明しているわけではないため、自分で使用するために編集するのが難しくなっています。

サンプル HTML:

<span ID="MSGHDR-CONTENT-TYPE-H-PRE">Content-type:</b></span> <span ID="MSGHDR-CONTENT-        TYPE-PRE">text/plain; charset=us-ascii</span>
</span><p> 

lots and lots of text here that I want


</pre><hr>Back to: <a href="#TOP">Top of message</a> &#124; <a href="/cgi-bin/wa?A1=ind9709&L=cybcom&D=0">Previous page</a> &#124; <a href="/cgi-bin/wa?A0=cybcom&D=0">Main CYBCOM page</a><p>

score 0 · Accepted Answer

HTML の形式が悪いため、ノードのツリーに解析されたときに整形式のインスタンスがどのように見えるかを理解するのは困難でした。

次のようなものがうまくいくかもしれません。の内部で宣言されたすべての要素がその子であると想定してい<pre>ます (HTML で閉じられていなくても)。

text()子を持たないの子であり、最初に値 " #TOP " を持つ href を持つ次の兄弟を持つの子孫であるを検索します。<pre><a>

//body/pre[following-sibling::a[position()=1 and @href='#TOP']]//p[not(p)]/text()

html - 異なる html タグ間のテキストを取得する Xpath クエリ

1 に答える 1

Related

Reference