テキスト間の意味的類似性を評価するプログラムを作成しようとしています。私はすでにテキスト間のn-gram頻度を比較しました(語彙の尺度)。これより少し浅いものが欲しかったので、文の構成の類似性を見ることは、テキストの類似性を評価する1つの方法であると考えました。
ただし、私が理解できるのは、POSを数えることだけです(たとえば、テキストごとに4つの名詞、2つの動詞など)。これは、単にn-gramを数えることに似ています(実際にはn-gramよりもうまく機能しません)。
postags = nltk.pos_tag(tokens)
self.pos_freq_dist = Counter(tag for word,tag in postags)
for pos, freq in self.pos_freq_dist.iteritems():
self.pos_freq_dist_relative[pos] = freq/self.token_count #normalise pos freq by token counts
多くの人々(Pearsons、ETS Research、IBM、学者など)は、より深い対策のために品詞を使用していますが、どのようにそれを行ったかについては誰も言いません。品詞をセマンティックテキストの類似性の「より深い」測定にどのように使用できますか?