Googleブックスのn-gramコーパスから、ターゲット単語ごとに約10,000個のターゲット単語と数百個のコンテキスト単語の単語共起統計を計算する必要があります。
以下は、完全なデータセットのリンクです。
明らかなように、データベースは約2.2TBであり、数千億の行が含まれています。単語の共起統計を計算するには、ターゲットとコンテキストの単語の可能なペアごとにデータ全体を処理する必要があります。現在、データのバッチ処理にHadoopとHiveを使用することを検討しています。これを考慮した他の実行可能なオプションは、学期の時間的制約と計算リソースの限られた利用可能性を伴う学術プロジェクトです。
データのリアルタイムクエリは必要ないことに注意してください