文を分析して予測を実装しようとしています。次の[かなり退屈な]文を考えてみましょう
Call ABC
Call ABC again
Call DEF
上記の文のデータ構造を次のようにしたいと思います。
Call: (ABC, 2), (again, 1), (DEF, 1)
ABC: (Call, 2), (again, 1)
again: (Call, 1), (ABC, 1)
DEF: (Call, 1)
一般に、Word: (Word_it_appears_with, Frequency), ....
このタイプのデータには固有の冗長性があることに注意してください。明らかに、 の頻度が 2 アンダー である場合、ABC
のCall
頻度Call
は 2 アンダーABC
です。これを最適化するにはどうすればよいですか?
アイデアは、新しい文が入力されているときにこのデータを使用することです。たとえば、Call
が入力されている場合、データから、 が文に存在する可能性が高いと簡単に言えます。ABC
最初の提案としてそれを提供し、その後に と を続けDEF
ます。
これは、予測を実装するための 100 万通りの方法の 1 つであることを認識しており、それを行うための他の方法の提案を楽しみにしています。
ありがとう