これはアルゴリズムの質問に似ていますが、Pythonにはこれを行うための適切な方法があると感じています。
文字列があるとしましょう:
string = " this is how i do is it..is this is how we do it.. this is how everyone do it is"
基本的に、文字列から最も重要なチャンクを抽出したいと思います。私が「最も重要」をどのように決定するかは、基本的に用語の頻度を調べることによってです。したがって、10文字/単語(基本的には固定ウィンドウ)の長さのチャンクが必要な場合、基本的に、用語の用語頻度スコアが最大のチャンクを見つけようとしています。
したがって、上記の例では、おそらく「は」最も繰り返される用語です。だから多分最高のチャンクは
"is this is"
またはそのような何か。?? Pythonでこれを効率的に行うにはどうすればよいですか(これはPythonコミュニティ用です)
これにアプローチするためのより良い方法はありますか(これはアルゴリズムコミュニティ向けです)