単語のすべての語形変化を同じ基本単語として扱う検索エンジンを作成しようとすると、うまくいきません。
- したがって、動詞の場合、これらはすべて同じ語根語である be :
- 人数/人 (例: am; is; are )
- 過去または未来の時制のような時制/気分 (例: was; were; will be )
- 過去分詞 (例 has been ; had been )
- 現在分詞と動名詞 (例 is being ; was not being funny ; 早いことは正しいことよりも重要ではない)
仮定法 (例 might be ;何かを終わらせることが重要; だったらいいのに) </p>
- 次に、名詞の場合、単数形と複数形の両方が同じ基本単語としてカウントされます [ ᴇᴅɪᴛᴏʀ's ɴᴏᴛᴇ: これは単語の引用形と呼ばれることがよくあります。]
たとえば、「<em>enable」では、「<em>enables」と「<em>enabled」を別々のエントリとして出力したくありません。これらの 3 つすべては、同じ基本単語、動詞enableとしてカウントする必要があります。
次のようなハッシュを使用して、重複の印刷を防ぐことができます。
unless ($seenmatches{ $headmatches[$l] }++)
誰かがこれを説明できますか?以下のコメントで説明します。
これは、複数形/過去形の継続を止めるものではありません。これを行う方法、または完全に異なるアプローチ、おそらく正規表現および/または置換を含む方法はありますか?
印刷が正しく印刷されないため、置換で単語を変更することはできません。まだその段階ではありませんが、最終的には不規則な過去時制 [ ᴇᴅɪᴛᴏʀ's ɴᴏᴛᴇ: ] と不規則名詞も含めたいと考えています。] 同じように
私の質問に答えるために他に何が必要なのかわからないので、意図せずに省略したものを教えてください。不足しているビットがあれば、より明確にするために記入します.