最近、Hbase と Hadoop スタックの実験を始めました。アプリケーションをゼロから構築しようとしています。Google n-gram データセットを使用するアプリケーションのスキーマを設計しています。
データセットは、行キーとして ngram を持ち、多くの修飾子 (Year、page count、match_count) を持つ 1 つの列ファミリーを持つモデルにするか、モデルは行キーとして n-gram と複数の列ファミリーを持つことができることを認識しています年、page_count、match_count。
モデルは、このデータの使用方法に依存することを理解していますが、これらのアプローチの両方の長所と短所を理解したいと思います。
乾杯、ドワラック