問題:
約 20 個の ASCII テキスト ファイルがあり、それぞれのサイズは10^9 バイト未満です。別のASCII テキスト ファイル (たとえば FOO) が与えられます。プログラムは、FOO の内容を指定された 20 個のファイルと戦略的に一致させ、最も近い一致するファイルの名前を出力します。FOO の内容は、部分的にしか一致しない場合があります。
ファイルサイズが大きすぎるので、私は疑問に思っています:
1.Information Retrievalの使い方(IRについてよくわからないので)
2.そのような情報を保存するためにどのデータ構造を使用すればよいですか
3.それを実装するのに最適なアルゴリズムは何ですか。
私はあまりにも多くを求めていることを知っていますが、実際には私はこの問題で立ち往生しており、アプローチ方法を見つけることができません。