0

テーブルhttp://www.amiriconstruction.co.uk/goodwoodgolf/scoretable.htmから、MacOSXコマンドラインからのhtmlタグのないプレーンテキストのテキスタイルにテキストを抽出したいと思います。

多くのsedコマンドを試しましたが、sedはファイル全体を再度出力するだけです。私は何が間違っているのですか?

私が試したことの例

sed -n '/<tr>/,/<\/tr>/p' scoretable.htm(htmlタグ付きのテーブルコンテンツを出力するだけです:()

4

2 に答える 2

3

wgetページをつかむのを助けて、少しTXRウェブスクレイピング:

@(deffilter nobr ("<br />" ""))
@(deffilter brsp ("<br />" " "))
@(deffilter nosp (" " ""))
@(next "!wget 2>/dev/null -O - http://www.amiriconstruction.co.uk/goodwoodgolf/scoretable.htm")
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
@(skip)
<div class="scoreTableArea">
@(collect)
<h2 class="unify">@year - @event</h2>
@  (filter brsp event)
@  (collect)
<tr>
<td class="center">@pos</td>
<td>@player</td>
<td>@company</td>
<td>@date</td>
<td class="center">@points</td>
</tr>
@  (filter nobr player company date points)
@  (filter nosp pos points)
@  (until)
</tbody>
@  (end)
@(end)
@(output :filter :from_html)
@  (repeat)

Event: @event
Year: @year

DATE       POS  PT  PLAYER           COMPANY
@    (repeat)
@{date -10}  @{pos -2}  @{points 2}  @{player 16} @company
@    (end)
@  (end)

@(end)

サンプル実行:

$ txr  scoretable.txr

Event: Teeing off to Clobber Ken
Year: 2011

DATE       POS  PT  PLAYER           COMPANY
 Sept 2011   1  40  John Durrant     King Sumners Partnership
 Sept 2011   2  34  Grahame Pettit   Amiri Construction
  Oct 2011   3  31  Tony Deacon      Gleeds
  Oct 2011   4  29  Tony Boyle       Lacey Hickey Caley 
  Oct 2011   5  29  Richard Hemming  Scott White and Hookins
 Sept 2011   6  29  Ian McCoy        Selway Joyce
 June 2011   7  27  Julian Larkin    C&G Properties
 Sept 2011   8  25  Roque Menezes    Capita Symonds
 June 2011   9  22  Shawn Lambert    PWP Architects
 Sept 2011  10  22  Kevin Lendon     Amiri Construction

Event: Ken Watson (HNW Architects) Undisputed Amiri Golf Demon of the Downs
Year: 2010

DATE       POS  PT  PLAYER           COMPANY
      2010   1  40  Ken Watson       HNW Architects
      2010   2  37  David Heda       London Clancy
      2010   3  34  Gordon Brown     Currie & Brown
      2010   4  32  Alistair Taylor  Wildbrook Properties
             5  30  Andy Goodridge   City Estates
             6  25  Russ Pitman      Henderson Green
             7  24  Phil Piper       Piper Whitlock 
             8  23  Kevin Miller     Urban Pulse Architects
             9  19  Simon Asquith    Godsall Arnold Partnership
            10  19  Shawn Lambert    PWP Architects
            11  18  Martin Judd      Davis Langdon
于 2012-04-07T15:46:38.557 に答える
2
sed -n 's;</\?td>;;gp' scoretable.html | \
sed -e 's;<td class="center">;;' \
    -e 's;<.*>;;'

;区切り文字としてではなく使用していることに注意して/ください。少し読みやすくなっています。Sedは、後に置い'sた文字を区切り文字として使用します。

さて、説明です。最初の行:

-n出力を抑制しますがp、コマンドの最後にあるは、パターンに一致するすべての行を具体的に印刷するようにsedに指示します。<td>これにより、タグでラップされた行のみが取得されます。同時に、私は一致するものを見つけて、</\?td>それを何も置き換えていません。/\?/、表示または1回だけ表示してはならないため、開始タグと終了タグの両方に一致します。最後のg、つまりグローバルは、パターンが1行で初めて成功した後、パターンの一致を停止しないことを意味します。それがなければg、オープニングタグを置き換えるだけです。

これからの出力は、2行目で再びsedにパイプされます。

-e実行する編集コマンドがあることを指定するだけです。1つのコマンドを実行しているだけの場合はそれが暗示されていますが、ここでは2つ実行しています(次のコマンドは3行目にあります)。

これにより、が削除<td class="center">され、次の行で他のタグ(この場合は<br>タグ)が削除されます。

最後のコマンドは、1行に最大で1つのタグしかないことが確実な場合にのみ実行できます。そうし.*ないと、貪欲になりすぎて一致しすぎるため、次のようになります。

<td class="center">24 </ br>

行全体に一致し、すべてを削除します。

于 2012-06-06T17:00:02.720 に答える