大規模なデータセットのngram頻度を生成したいと思います。ウィキペディア、より具体的には、FreebaseのWEXは私の目的に適しています。
翌日かそこらでそれを行うための最良かつ最も費用効果の高い方法は何ですか?
私の考えは次のとおりです。
- 正規表現を使用して文と単語を分割するPostgreSQL。私はすでにPostgreSQLにWEXダンプを持っており、分割を行うための正規表現をすでに持っています(ここでは主要な精度は必要ありません)
- Hadoopを使用したMapReduce
- MapReduceとAmazonのElasticMapReduceは、ほとんど何も知りません。
Hadoopでの私の経験は、3つのEC2インスタンスでPiを非常に非効率的に計算することで構成されています。私はJavaが得意で、Map+Reduceの概念を理解しています。PostgreSQLは簡単に並列化できないため、長い時間がかかるのではないかと心配しています。
それを行う他の方法はありますか?次の数日でそれを成し遂げるための私の最善の策は何ですか?