私はまだこの膨大なURLのリストを扱っています、私が受けたすべての助けは素晴らしかったです。
現時点では、次のようなリストがあります(ただし、17000のURL)。
http://www.example.com/page?CONTENT\_ITEM\_ID=1
http://www.example.com/page?CONTENT\_ITEM\_ID=3
http://www.example.com/page? CONTENT \ _ITEM \ _ID = 2
http://www.example.com/page?CONTENT\_ITEM\_ID=1
http://www.example.com/page?CONTENT\_ITEM\_ID=2
http:// www .example.com / page?CONTENT \ _ITEM \ _ID = 3
http://www.example.com/page?CONTENT\_ITEM\_ID=3
いくつかの方法、awkなどで問題なく重複を除外できます。私が本当に探しているのは、重複するURLを取得すると同時に、リストにURLが存在する回数をカウントして印刷することです。パイプ区切り文字のあるURLの横のカウント。リストを処理すると、次のようになります。
url | カウント
http://www.example.com/page?CONTENT\_ITEM\_ID=1 | 2
http://www.example.com/page?CONTENT\_ITEM\_ID=2 | 2
http://www.example.com/page?CONTENT\_ITEM\_ID=3 | 3
これを達成するための最速の方法はどの方法ですか?