ウェブページがキーワードのセットとして定義されている場合に、ウェブページの最も近い k 個の近隣を識別するためのライブラリまたはアルゴリズム (コードを自分で作成するため) を見つけたいと考えています。キーワードを抽出する部分はすでに完了しています。
とても良いものである必要はありません。
誰でも解決策を提案できますか、またはどこから始めればよいですか。過去に Yury Lifshits 氏の講義を見たことはありますが、できれば既成のものを手に入れたいと思っています。
Java ライブラリが優先されます。