0

これらの用語をすべて一致させる必要があり、困難に直面しています

整形外科、整形外科、整形外科、整形外科

現在、形態学stem_enを使用して他のほとんどの複数形を扱っています。

これは、このグループの現在のワードフォームエントリです(ペアが逆に複製されているか、一方向にしか機能しません)

orthopaedic > orthopedic
orthopedic > orthopaedic
orthopedics > orthopaedics
orthopaedics > orthopedics

ただし、「整形外科」は「整形外科」と一致せず、「整形外科」がすでに存在し、インデックス作成時にエラーがスローされるため、「整形外科>整形外科」という別のエントリを追加することはできません。

アドバイスをいただければ幸いです

4

1 に答える 1

0

ペアが逆に複製されているか、それ以外の場合は一方向にしか機能しません

それは悪い考えです!両方の方法で配置すると、問題が発生し (実際に発見したように!)、一方を他方に変更するため、適切に一致しません!

必要な方向は 1 つだけです。Sphinx は左の単語を取得し、実際には右の単語をインデックスに格納します。そのため、左と右の検索は交換可能になります。単語を交換すると、一致する機会がなくなります。

wordforms は「ステミング例外」を実行するため、複雑になります。つまり、wordforms の単語はステミングされないため、多くの単語が一致しません。だからあなたはする必要があります

  1. wordforms リストでステミングを手動で実行し、
  2. wordforms ファイル内のすべてのバリエーションをリストします -同じ一般的な単語に

上記の例を使用すると、次のようになります

orthopaedic > orthopedic 
orthopedic > orthopedic 
orthopedics > orthopedic 
orthopaedics > orthopedic 

単語が幹を付けた場合、それを行う必要があります。

bridge > bridg
bridges > bridg
bridging > bridg

wordforms ファイルが大幅に肥大化しますが、自動化できます。

于 2013-01-31T12:11:48.773 に答える