0

Jsoup を使用してオンライン フォーラムをスクレイピングしています。他のコメンターの引用なしでメインの投稿をスクレイピングするにはどうすればよいのか疑問に思っていました。

私がなんとかこすり落としたもの: carey が書いた: うん、CC は通常、特にガソリンと makan の割引を受けました.ガソリン キオスクで使用すると、黒い DBS デビット カードは割引を受けることができますか? CCがないので、いつも現金で支払います。

欲しいもの:ガソリン キオスクで使用すると、黒い DBS デビット カードを割引できますか? CCがないので、いつも現金で支払います。

html は次のとおりです。

<div id="post_message_63989045">
  <div class="quote"> 
    <span class="byline"> <a href="/eat-drink-man-woman-16/life-without-credit-cards-3601620-post63982949.html#post63982949" rel="nofollow"><img class="inlineimg" src="http://www.hardwarezone.com.sg/img/forums/hwz/buttons/viewpost.gif" border="0" alt="View Post" /></a> <strong>carey</strong> wrote: </span> 
     <blockquote cite="showthread.php?p=63982949#post63982949">
        Yup, CC usually got discounts, especially for petrol and makan...
        <br /> 
        <br /> So those without a CC are being penalized 
        <img src="http://www.hardwarezone.com.sg/img/forums/hwz/smilies/eek.gif" border="0" alt="" title="EEK!" class="inlineimg" /> 
     </blockquote> 
  </div>The black DBS debit card when used at petrol kiosk can get discount ?
  <br /> 
  <br /> I always pay cash because no cc . 
  <img src="http://www.hardwarezone.com.sg/img/forums/hwz/smilies/frown.gif" border="0" alt="" title="Frown" class="inlineimg" />
</div> 
4

3 に答える 3

1

<div>スクレイピングに使用するものがHTMLタグを解析する場合、「引用」のクラスを持つ を単純に除外できます

于 2012-07-15T07:47:38.850 に答える
0

コメント.ownText()

要素が所有するテキストを取得します。テキストをすべての子と組み合わせない

于 2012-07-18T00:58:34.473 に答える
0

XPath を使用できる場合は、直接の子であるすべてのテキスト ノードをクエリできます。

//div[@id="post_message_63989045"]/text()

テキストは quote-div の子であるため、引用は無視されます。(おそらく誰かが投稿したコードタグと同様)

于 2012-07-15T10:53:21.343 に答える