データのタグ付けをサポートするストレージ システムを実装しようとしています。このシステムの非常に単純なアプリケーションは、複数のタグでタグ付けされた Stackoverflow の質問のようなものです。また、クエリは複数のタグで構成される場合があります。これも、複数のキーワードで Google で検索したように見えます。
このシステムによって維持されるデータ セットは、数十億のエントリを持つ数または数十テラバイトのように、非常に大きくなります。
では、このシステムでデータを維持およびクエリするために、どのデータ構造とアルゴリズムを使用すればよいでしょうか? また、データはマシンのクラスター全体に保存される場合があります。
そのような問題と解決策を説明するガイドや論文はありますか?