私はいくつかのテキスト処理を行っており、理想的にはRubyを使用して、単語やフレーズの頻度に基づいてテキストの段落を見つけてスコアリングすることに興味があります。
問題の例: 「リンゴ」、「バナナ」、「フルーツ サラダ」、「オレンジ」があります。このリストは、数千の単語および/またはフレーズの長さになる可能性があります。
検索するテキストの本文があります。
私は一組のりんごとりんごのコンピュータ、そして Apple.com のアカウントを持っていますが、フルーツ サラダは一度も持っていません。なぜ彼らがオレンジを兼ねた Apple Computer をリリースしなかったのか、私には理解できませんでした。
これにより、次のような配列が吐き出されます。
アップル4 オレンジ 1 バナナ 0 フルーツサラダ 1
理想的には、ドメイン「apple.com」が 2 ポイントを獲得するなど、さまざまな重みを適用できます。
これを行うのに特に役立つライブラリはありますか?