mongo db にドキュメントのコレクションがあります。このコレクションにアクセスして挿入するために Pymongo を使用しています。私がやりたいことは:
Python では、map reduce を使用して、コーパス全体で -gram 句が使用された回数を効率的にクエリします。
単一の単語に対してこれを行う方法は知っていますが、n-gram に拡張するのに苦労しています。私がやりたくないのは、NLTK ライブラリを使用してトークン化してから map reduce を実行することです。それがソリューションの効率を低下させると私は信じています。ありがとう。