ユーザーのハイライトに基づいてテキスト内の最も重要な要素を取得する集計アルゴリズムを実行しようとしています。
n 個の単語を含むテキストがあり、そのテキストから k 個の連続する単語を「関連するハイライト」として選択できると想像してください。ここで、1<=k<=n です (k は n の部分文字列です)。
これらの k 個のハイライトを 10 から 10000 の範囲で選択すると仮定すると、最も重要な情報を判断できるアルゴリズムはありますか?
ハイライトの多くが重複することを考慮し、それを考慮する必要があります。また、Chrome拡張用であるため、javascriptでのソリューションを探していることも望ましいです。
これはクラス用ではなく、群集ベースの要約に関する個人的なプロジェクト用です。