2

ポーターステミングアルゴリズムを実装しようとしていますが、この時点でつまずきました

ここで角括弧は、その内容が任意に存在することを示します。(VC){m} を使用して VC が m 回繰り返されることを示すと、これも次のように記述できます。

[C](VC){m}[V].

m は、この形式で表される場合、単語または単語部分の \measure\ と呼ばれます。m = 0 の場合はヌル ワードをカバーします。ここではいくつかの例を示します。

m=0    TR,  EE,  TREE,  Y,  BY.
m=1    TROUBLE,  OATS,  TREES,  IVY.
m=2    TROUBLES,  PRIVATE,  OATEN,  ORRERY.

この「メジャー」とは何なのか、何の略なのかわかりません。

4

1 に答える 1

2

尺度は、母音の直後に子音が続く回数のようです。例えば、

「トラブル」には次の機能があります。

オプションの最初の子音[C]= "TR"。

最初の母音-子音グループ(VC)= "OUBL".

第 2 母音子音グループ(VC)= "ES"。

オプションの語尾母音[V]が空です。

(VC)したがって、メジャーは 2 回で、「一致」した回数です。

于 2010-12-23T16:56:08.260 に答える