興味深い問題があり、適切な解決策を探しています。さまざまなサイズの約 100,000 の PDF ドキュメントがあり、平均サイズは 150 ページです。現在、RAID6 サーバー上にあり、オフサイトでもバックアップされています。インデックスを作成する必要がある合計 6.5 TB 相当の PDF があります。
現在、PDF をテキスト ファイルに変換し、サーバー上の同様のフォルダー構造に保存しています。次に、これらをインデックス化し、元のフォルダーへのバック リンクを含めて検索可能にする必要があります。テキスト ファイルは、追加の命名規則が追加された PDF と同じ名前を使用します。私の見積もりが正しければ、インデックスを作成する必要がある単語数は 40 億近くになります。
これらのファイルをインデックス化するための適切なソリューションは何ですか?