1

私はこのウェブサイトからデータをスクレイピングするためにスクレイピーを使用しています: http://www.nuforc.org/webreports/ndxevent.html

UFO の目撃情報から日付を分ける必要があります。

ここに私がスクレイピングしているものの例があります

<TR VALIGN=TOP> <TD><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000><A HREF= ndxe201303.html>03/2013</A></TD> <TD ALIGN=RIGHT><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000>108</TD>

この例では、日付 = 2013 年 3 月、カウント = 108

私はただできるので、今は日付は問題ではありません

hxs.select('//tbody//td//font//a//text()').extract()

「a」タグ内のテキストを取得します。

しかし、スタイル ALIGN=RIGHT を持つ td 要素からテキストを取得する方法はありますか? ドキュメントとセレクターを見ましたが、混乱しています

hxs.select('//tbody[contains(td, "ALIGN")]').extract()

?

4

1 に答える 1

1

これは、次の属性<td>を持つすべてのテキストからテキストを選択します。 ALIGN="RIGHT"

hxs.select('//tbody//td[@ALIGN="RIGHT"]//text()').extract()
于 2013-05-08T12:35:36.437 に答える