c - Cリストから文字列のサブセットを検索します

Question

1Mエントリのリストがあり、これらのエントリの20,000のサブセットを除外したいと思います（2つのリストは、同じキー（文字列）を持つことで順序が異なります）。誰かがこれを行うためにCでクイック検索アルゴリズムを提案できますか？

20K IDのそれぞれを読み、毎回1Mのリストを調べる必要はありません。どんな提案も最も役に立ちます。

ありがとうございました。

score 2 · Accepted Answer

使用したいのはハッシュセットです。ハッシュセットは、要素がセット内に存在するかどうかを一定時間で基本的に記録するハッシュテーブルの特殊なケースです。したがって、20,000 個の ID をハッシュセットに挿入し、100 万個の文字列を実行して、それらがハッシュセットに存在するかどうかを確認します。

参考までに、C でのハッシュセットの実装を次に示します: https://github.com/avsej/hashset.c

実行時間は O(n) になります。これは、1M 文字列のチェックごとに一定の時間になるためです。

score 0 · Accepted Answer

最初に両方のリストを並べ替えます。次に、それらを一緒にトラバースし、リスト内のポインターの後ろにあるポインターをもう一方のポインターに進めます。

Cを使用する必要がありますか？これは Perl の仕事のように思えます。

score 0 · Accepted Answer

リストの検索を開始する前に、20,000 個のキーをハッシュテーブルに含めます。次に、リスト内の各アイテムのキーについて、そのキーがハッシュテーブルにある場合は、そのアイテムをリストから除外します。

3 に答える 3