linux - Linux でファイルから文字列の個別の部分を抽出する方法

Question

次のコマンドを使用して、.com 拡張子を含み、.us または任意の国の拡張子を含む可能性のある個別の URL を抽出しています。

 grep '\.com' source.txt -m 700 | uniq | sed -e 's/www.//' 
> dest.txt

問題は、同じドメイン内の URL を抽出することです。これは望ましくありません。例: abc.yahoo.com efg.yahoo.com

必要なのは yahoo.com だけです。grep またはその他のコマンドを使用して、個別のドメイン名のみを抽出するにはどうすればよいですか?

score 0 · Accepted Answer

0

多分このようなもの？

egrep -io '[a-z0-9\-]+\.[a-z]{2,3}(\.[a-z]{2})?' source.txt

于 2012-07-29T19:13:09.857 に答える

score 0 · Accepted Answer

sedの代わりにawkinを使用して、「。」を指定してみましたか。区切り文字として、最後の2つのフィールドのみを出力します。

awk -F "." '{ print $(NF-1)"."$NF }'

score 0 · Accepted Answer

0

おそらく、このようなものが役立つはずです：

egrep -o '[^.]*.com' file

于 2012-07-29T19:13:24.863 に答える

3 に答える 3