より大きなプロジェクトの一環として、私はテキストを読み、各単語を数字で表す必要があります。たとえば、プログラムに「すべての良い男の子は実を結ぶに値する」と書かれている場合、「 every」を「1742」に、「good」を「977513 」に変換するテーブルを取得します。
これで、明らかにハッシュアルゴリズムを使用してこれらの数値を取得できます。ただし、意味が似ている単語の数値が近く、「good」が「6827」、「great」が「6835」になると便利です。
別のオプションとして、各数値を表す単純な整数の代わりに、複数の数値で構成されるベクトルを使用することをお勧めします。たとえば、(lexical_category、tense、classification、specific_word)ここで、lexical_categoryは名詞/動詞/形容詞/ etc、tenseです。はfuture/past / presentであり、分類は幅広い一般的なトピックのセットを定義し、specific_wordは前の段落で説明したものとほとんど同じです。
そのようなアルゴリズムはありますか?そうでない場合は、自分で開発を開始するためのヒントを教えてください。私はC++でコーディングします。