iMacros for Firefox プラグインでリンク URL を抽出しようとしています。
次の入力HTML コードは、スクレイピングする Web サイトにあります: リンク URL と説明
<div class="subcl">
<a href="http://www.url.com/someurl.html" target="_blank">description</a>
</div>
iMacros からの望ましい出力: 単純にリンク URL
http://www.url.com/someurl.html
Web サイトにはさらにリンクがあるため、class="subcl" をコードに含める必要があります。ネストされた構造を実装する方法はありますか?私は自分でコードを書いていないので、できればJavascript以外のコードを好むでしょう。
次のマクロ コードは機能しませんでした
VERSION BUILD=8300326 RECORDER=FX
TAB T=1
'Open the website
URL GOTO=http://www.url.com/pagetobescraped.html
'Extract the link url on the page
TAG POS=1 TYPE=DIV ATTR=CLASS:subcl* EXTRACT=HREF
マクロは戻ります#EANF#
(ファイルの終わりに到達し、一致しませんでした)。置き換えるEXTRACT=HREF
とEXTRACT=TXT
戻ります"description"
が、URLが必要です。
編集
symbiotech の回答を明確にするために: 入力 html コードの前に要素<h1>
と<p>
. 全部合わせるとこんな感じ…
<h1>Title of the page</h1><p class="intro"></p>
<div class="subcl">
<a href="http://www.url.com/someurl.html" target="_blank">description</a>
</div>