与えられた文字列:
this is a test this is
上位 n 個の最も一般的な 2 グラムを見つけるにはどうすればよいですか? 上記の文字列では、すべての 2 グラムは次のとおりです。
{this is, is a, test this, this is}
お気づきのとおり、2-gramthis is
は 2 回表示されます。したがって、結果は次のようになります。
{this is: 2}
メソッドを使用Counter.most_common()
して最も一般的な要素を見つけることができることはわかっていますが、最初に文字列から 2 グラムのリストを作成するにはどうすればよいでしょうか?