4

mechanize/nokogiri を使用しており、次の HTML 文字列を解析する必要があります。これを行うための xpath 構文または他の機能する方法を手伝ってくれる人はいますか?

<table>
  <tr class="darkRow">
    <td>
      <span>
        <a href="?x=mSOWNEBYee31H0eV-V6JA0ZejXANJXLsttVxillWOFoykMg5U65P4x7FtTbsosKRbbBPuYvV8nPhET7b5sFeON4aWpbD10Dq">
            <span>4242YP</span>
        </a>
      </span>
    </td>
    <td>
      <span>Subject of Meeting</span>
    </td>
    <td>
      <span>
        <span>01:00 PM</span> 
        <span>Nov 11 2009</span> 
        <span>America/New_York</span>
      </span>
    </td>
    <td>
      <span>30</span>
    </td>
    <td>
      <span>
        <span>example@email.com</span>
      </span>
    </td>
    <td>
        <span>39243368</span>
    </td>
  </tr>
  .
  .
  .
  <more table rows with the same format>
</table>

これを出力として欲しい

"4242YP","Subject of Meeting","01:00 PM Nov 11 2009 America/New_York","30","example@email.com", "39243368"
.
.
.
<however many rows exist in the html table>
4

2 に答える 2

4

このようなもの?

items=doc.xpath('//tr').map {|row| row.xpath('.//span/text()').select{|item| item.text.match(/\w+/)}.map {|item| item.text} }

戻り値: => [["4242YP", "議題", "01:00 PM", "2009 年 11 月 11 日", "America/New_York", "30", "example@email.com", "39243368" ], ["abcdefg"]]

Select には、単語文字で始まるスパンのみが含まれます (たとえば、一部のスパンに含まれる空白は除外されます)。特定のケースに合わせて「選択」フィルターを調整する必要がある場合があります。

ネストされた配列を確認できるように、abcdefg を含むスパンを含む最小限の行を追加しました。

于 2009-11-18T18:17:22.247 に答える
0

XSL トランスフォーマーがある場合、入力を変換するための XSL の一部を次に示します。

<?xml version="1.0"?>
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text"/>

<xsl:template match="/">
   <xsl:apply-templates select="//tr"/>
</xsl:template>

<xsl:template match="tr">
   "<xsl:value-of select="td/span/a/span"/>","<xsl:value-of select="td[position()=2]/span"/>","<xsl:value-of select="td[position()=3]/span/span[position()=1]"/>"
</xsl:template>

</xsl:stylesheet>

生成される出力は次のようになります。

"4242YP","Subject of Meeting","01:00 PM"
"4242YP","Subject of Meeting","01:00 PM"

(最初の表の行を複製しました)。

XSL 選択ビットを使用すると、残りを取得するために必要な XPATH 入力を把握できます。

于 2009-11-18T18:32:58.103 に答える