r - ソートされたファイルの一意の行数を見つけるための最速の方法/アルゴリズム

翻译自：https://stackoverflow.com/questions/17632880 2013-07-13T18:10:21.663

288 次

現在.N、ファイル内の一意の行数を見つけるために使用していますby= ... .

たとえば。col1とcol2のデータテーブル内の一意の行数を見つけるにはdt、クエリは次のようになります。

dt[, .N, by="col1,col2"]

非常に大きなファイルの場合、これには非常に長い時間がかかる場合があります。テーブルがソートされている場合、これを行うより速い方法はありますか? 基本的に、カウンターを設定し、一意の行が検出されるたびに単一のエントリを使用して、各行が表示される回数で更新できます。for ループは永遠にかかるため、使用できません。

r - ソートされたファイルの一意の行数を見つけるための最速の方法/アルゴリズム

2 に答える 2

Related

Reference