2

次のコマンドを使用して、.com 拡張子を含み、.us または任意の国の拡張子を含む可能性のある個別の URL を抽出しています。

 grep '\.com' source.txt -m 700 | uniq | sed -e 's/www.//' 
> dest.txt

問題は、同じドメイン内の URL を抽出することです。これは望ましくありません。例: abc.yahoo.com efg.yahoo.com

必要なのは yahoo.com だけです。grep またはその他のコマンドを使用して、個別のドメイン名のみを抽出するにはどうすればよいですか?

4

3 に答える 3

0

多分このようなもの?

egrep -io '[a-z0-9\-]+\.[a-z]{2,3}(\.[a-z]{2})?' source.txt
于 2012-07-29T19:13:09.857 に答える
0

sedの代わりにawkinを使用して、「。」を指定してみましたか。区切り文字として、最後の2つのフィールドのみを出力します。

awk -F "." '{ print $(NF-1)"."$NF }'
于 2012-07-29T19:13:23.773 に答える
0

おそらく、このようなものが役立つはずです:

egrep -o '[^.]*.com' file
于 2012-07-29T19:13:24.863 に答える