sed - sed/awkまたはcutを使用してhtmlソースからURLを抽出するには?

Question

HTML ページソースをファイルとしてダウンロードし、ファイルを読み取り、特定のコードの後にある特定の URL を抽出するスクリプトを作成しています。(出現回数は 1 回のみ)

一致する必要があるサンプルは次のとおりです。

<img id="sample-image" class="photo" src="http://xxxx.com/some/ic/pic_1asda963_16x9.jpg"

URL の前のコードは常に同じなので、次の部分を抽出する必要があります。

<img id="sample-image" class="photo" src="

および"URL の後に。

私はこのようなsedで何かを試しました:

sed -n '\<img\ id=\"sample-image\"\ class=\"photo\"\ src=\",\"/p' test.txt

しかし、うまくいきません。私はあなたの提案に感謝します、どうもありがとう！

score 3 · Accepted Answer

grep がある場合はGNU、次のようなことができます。

grep -oP "(?<=src=\")[^\"]+(?=\")" test.txt

使用したい場合awkは、次のようにします。

awk -F\" '{print $(NF-1)}' test.txt

score 3 · Accepted Answer

次のようにgrepを使用できます。

grep -oP '<img\s+id="sample-image"\s+class="photo"\s+src="\K[^"]+' test.txt

またはsedを使用:

sed -r 's/<img\s+id="sample-image"\s+class="photo"\s+src="([^"]+)"/\1/' test.txt

またはawkを使用:

awk -F'src="' -F'"' '/<img\s+id="sample-image"/{print $6}' test.txt

score 2 · Accepted Answer

2

With sed as

echo $string | sed 's/\<img.*src="\(.*\)".*/\1/'

于 2013-06-15T21:55:00.133 に答える

score 1 · Accepted Answer

sed使用しているコマンドに関するいくつかのこと：

sed -n '\<img\ id=\"sample-image\"\ class=\"photo\"\ src=\",\"/p' test.txt

<、"またはスペースをエスケープする必要はありません。一重引用符は、シェルが式に対して単語分割やその他の処理を実行するのを防ぎますsed。
あなたは本質的にこれを行っていますsed -n '/pattern/p' test.txt（開始のバックスラッシュが欠けているように見えることを除いて）「このパターンに一致し、一致を含む行を出力します」と言いますが、実際にはURLを抽出していません。
class="photo"これは些細なことですが、すでに HTML 要素が一意になっているため、一致させる必要はありませんid(同じ HTML 内で 2 つの要素が同じ ID を共有することはありません)。

これが私がすることです

sed -n 's/.*<img id="sample-image".*src="\([^"]+\)".*/\1/p' test.txt

4 に答える 4