1

テキスト間の意味的類似性を評価するプログラムを作成しようとしています。私はすでにテキスト間のn-gram頻度を比較しました(語彙の尺度)。これより少し浅いものが欲しかったので、文の構成の類似性を見ることは、テキストの類似性を評価する1つの方法であると考えました。

ただし、私が理解できるのは、POSを数えることだけです(たとえば、テキストごとに4つの名詞、2つの動詞など)。これは、単にn-gramを数えることに似ています(実際にはn-gramよりもうまく機能しません)。

postags = nltk.pos_tag(tokens)
self.pos_freq_dist = Counter(tag for word,tag in postags)
for pos, freq in self.pos_freq_dist.iteritems():
    self.pos_freq_dist_relative[pos] = freq/self.token_count    #normalise pos freq by token counts             

多くの人々(Pearsons、ETS Research、IBM、学者など)は、より深い対策のために品詞を使用していますが、どのようにそれを行ったかについては誰も言いません。品詞をセマンティックテキストの類似性の「より深い」測定にどのように使用できますか?

4

2 に答える 2

1

http://phpir.com/part-of-speech-tagging/などのより洗練されたタガーが必要です。文の意味や意図を判断するには、アルゴリズムを作成し、単語バンクを作成する必要があります。セマンティック分析は人工知能です。

名詞と大文字の名詞がコンテンツの主題になります。形容詞は、コンテンツの極性に関するヒントを提供します。曖昧さ、明快さ、力、弱さ、使われる言葉の種類。可能性は無限大。

于 2012-07-29T19:39:09.707 に答える
0

NLTK Bookの第 6 章を見てください。テキストの分類に使用できる機能について、多くのアイデアが得られるはずです。

于 2012-07-12T18:08:21.753 に答える