2

Web ページの href タグを読み取り、その Web ページのリンクを取得してテキスト ファイルに書き込むスクリプトを作成しました。これで、たとえば次のようなリンクを含むテキスト ファイルができました。

http://news.bbc.co.uk/2/hi/health/default.stm
http://news.bbc.co.uk/weather/
http://news.bbc.co.uk/weather/forecast/8?area=London
http://newsvote.bbc.co.uk/1/shared/fds/hi/business/market_data/overview/default.stm
http://purl.org/dc/terms/
http://static.bbci.co.uk/bbcdotcom/0.3.131/style/3pt_ads.css
http://static.bbci.co.uk/frameworks/barlesque/2.8.7/desktop/3.5/style/main.css
http://static.bbci.co.uk/frameworks/pulsesurvey/0.7.0/style/pulse.css
http://static.bbci.co.uk/wwhomepage-3.5/1.0.48/css/bundles/ie6.css
http://static.bbci.co.uk/wwhomepage-3.5/1.0.48/css/bundles/ie7.css
http://static.bbci.co.uk/wwhomepage-3.5/1.0.48/css/bundles/ie8.css
http://static.bbci.co.uk/wwhomepage-3.5/1.0.48/css/bundles/main.css
http://static.bbci.co.uk/wwhomepage-3.5/1.0.48/img/iphone.png
http://www.bbcamerica.com/
http://www.bbc.com/future
http://www.bbc.com/future/
http://www.bbc.com/future/story/20120719-how-to-land-on-mars
http://www.bbc.com/future/story/20120719-road-opens-for-connected-cars
http://www.bbc.com/future/story/20120724-in-search-of-aliens
http://www.bbc.com/news/

次のようなものを返すようにそれらをフィルタリングできるようにしたいと思います。

http://www.bbc.com : 6
http://static.bbci.co.uk: 15

横の値は、ドメインがファイルに出現する回数を示します。ファイルをループすることを考慮して、bashでこれを達成するにはどうすればよいですか。私は bash シェル スクリプトの初心者ですか?

4

2 に答える 2

7
$ cut -d/ -f-3 urls.txt | sort | uniq -c                  
3 http://news.bbc.co.uk
1 http://newsvote.bbc.co.uk
1 http://purl.org
8 http://static.bbci.co.uk
1 http://www.bbcamerica.com
6 http://www.bbc.com
于 2012-07-25T07:12:52.023 に答える
6

ちょうどこのような

egrep -o '^http://[^/]+' domain.txt | sort | uniq -c

サンプルデータへのこれの出力:

3 http://news.bbc.co.uk/
1 http://newsvote.bbc.co.uk/
1 http://purl.org/
8 http://static.bbci.co.uk/
6 http://www.bbc.com/
1 http://www.bbcamerica.com/

このソリューションは、行が末尾にスラッシュのない単純なURLで構成されている場合でも機能します。

http://www.bbc.com/news
http://www.bbc.com/
http://www.bbc.com

すべて同じグループになります。

httpsを許可する場合は、次のように記述できます。

egrep -o '^https?://[^/]+' domain.txt | sort | uniq -c

ftp、mailtoなどの他のプロトコルが可能な場合は、非常に緩くして次のように書くこともできます。

egrep -o '^[^:]+://[^/]+' domain.txt | sort | uniq -c
于 2012-07-25T07:11:26.463 に答える