つまり、'symbols' と 'volumes' という 2 つの財務データ ファイルがあります。シンボルには、次のような文字列があります。
FOO
BAR
BAZINGA
...
ボリュームには、次のような整数値があります。
0001387
0000022
0123374
...
アイデアは、株式シンボルがファイル内で繰り返され、各株式の総量を見つける必要があるということです。したがって、foo を観察する各行では、ボリュームで観察された値だけ foo の総ボリュームを増やします。問題は、これらのファイルが非常に大きくなる可能性があることです。簡単に 5 ~ 1 億レコードになります。典型的な 1 日には、ファイル内に最大 1,000 個の異なるシンボルが含まれる場合があります。
新しい行ごとにシンボルに対して strcmp を使用すると、非常に非効率的になります。連想配列を使用することを考えていました---文字列キーを許可するハッシュテーブルライブラリ---uthash
またはGlib
のハッシュテーブルなど。
についてかなり良いことを読んでいJudy arrays
ますか?この場合、ライセンスに問題はありますか?
効率的なハッシュテーブルの実装の選択について何か考えはありますか? また、ハッシュ テーブルをまったく使用する必要があるのか、それともまったく別のものを使用する必要があるのか。
うーん..前の省略をお詫びします。純粋な C ソリューションが必要です。
ありがとう。