hadoop - 適度なリソースを使用してGoogleブックスのn-gramデータセットで処理を行うための最も実行可能なオプションは何ですか？

Question

Googleブックスのn-gramコーパスから、ターゲット単語ごとに約10,000個のターゲット単語と数百個のコンテキスト単語の単語共起統計を計算する必要があります。

以下は、完全なデータセットのリンクです。

明らかなように、データベースは約2.2TBであり、数千億の行が含まれています。単語の共起統計を計算するには、ターゲットとコンテキストの単語の可能なペアごとにデータ全体を処理する必要があります。現在、データのバッチ処理にHadoopとHiveを使用することを検討しています。これを考慮した他の実行可能なオプションは、学期の時間的制約と計算リソースの限られた利用可能性を伴う学術プロジェクトです。

データのリアルタイムクエリは必要ないことに注意してください

score 0 · Accepted Answer

Hiveには、ngramを処理するためのUDFが組み込まれていますhttps://cwiki.apache.org/Hive/statisticsanddatamining.html#StatisticsAndDataMining-ngrams%2528%2529andcontextngrams%2528%2529%253ANgramfrequencyestimation

hadoop - 適度なリソースを使用してGoogleブックスのn-gramデータセットで処理を行うための最も実行可能なオプションは何ですか？

1 に答える 1

Related

Reference