linux - Webページでドメインを返すLinuxスクリプト

Question

私はこの質問を課されました：最初の引数としてURLを取り、URLのHTMLでホスト/ドメインごとのリンク数の統計を出力するbashスクリプトを記述します。

たとえば、www.bbc.co.ukのようなURLを指定すると、次のように出力される可能性があります。

www.bbc.co.uk: 45
bbc.com: 1
google.com: 2
Facebook.com: 4

つまり、ページのHTMLを分析し、すべてのリンクを引き出し、href属性を調べ、同じドメインへのリンク（もちろん、その1つを図解します）と外部のリンクを決定してから、ローカルのものとリモートのもの。

ルール：スクリプトでは、標準のLinuxコマンドの任意のセットを使用できます。C、Python、Perlなどの高級プログラミング言語を使用することはできません。ただし、awk、sedなどを使用することはできます。

私は次のように解決策を思いついた：

#!/bin/sh

echo "Enter a url eg www.bbc.com:"
read url
content=$(wget "$url" -q -O -)
echo "Enter file name to store URL output"
read file
echo $content > $file
echo "Enter file name to store filtered links:"
read links
found=$(cat $file | grep -o -E 'href="([^"#]+)"' | cut -d'"' -f2 | sort | uniq | awk '/http/' > $links)
output=$(egrep -o '^http://[^/]+/' $links | sort | uniq -c > out)
cat out

次に、「データを調べて、プログラムがすべてのシナリオを十分に処理していることを確認する必要があります。これはURLを報告しますが、ドメインは報告しません」と言われました。目標を達成できるように？何が欠けているのですか、それともスクリプトが何をしていないのですか？必要に応じて動作させたと思いました。

score 0 · Accepted Answer

スクリプトの出力は次のとおりです。

      7 http://news.bbc.co.uk/
      1 http://newsvote.bbc.co.uk/
      1 http://purl.org/
      8 http://static.bbci.co.uk/
      1 http://www.bbcamerica.com/
     23 http://www.bbc.com/
    179 http://www.bbc.co.uk/
      1 http://www.bbcknowledge.com/
      1 http://www.browserchoice.eu/

私は彼らがそれがもっと似ているべきであることを意味していると思います:

      7 news.bbc.co.uk
      1 newsvote.bbc.co.uk
      1 purl.org
      8 static.bbci.co.uk
      1 www.bbcamerica.com
     23 www.bbc.com
    179 www.bbc.co.uk
      1 www.bbcknowledge.com
      1 www.browserchoice.eu

linux - Webページでドメインを返すLinuxスクリプト

1 に答える 1

Related

Reference