(これは現時点ではかなり仮説的なものなので、提供できる詳細はあまりありません。)
各行に 1 つずつ、ランダムな (英語の) 単語のフラット ファイルがあります。各単語の出現回数をカウントする効率的なプログラムを作成する必要があります。ファイルは大きい (おそらく 1GB 程度) ですが、すべてに十分な RAM があります。それらは永続的なメディアに保存されているため、読み取り速度が遅いため、一度だけ直線的に読み取る必要があります。
私の頭の中で思いついた2つのアイデアは、単語でハッシュを使用することでした=>いいえ。発生の、またはいいえのトライ。終了ノードでのオカレンスの数。ハッシュ配列に十分な RAM がありますが、トライのルックアップは同じか高速になると考えています。
どのようなアプローチが最適でしょうか?