単数-複数のキーワード検索の簡単な解決策を見つけています。ステミングについて聞いたことがありますが、すべての機能を使用するのではなく、複数形/単数形の変換のみを使用したいと考えています。言語はオランダ語です。以前にhttp://www.snowball.tartarus.orgを見たことがあります。単数または複数の関連検索の簡単な解決策を知っている人はいますか? 前もって感謝します。
質問する
2309 次
3 に答える
2
辞書、ストップワード (単数化したくないもの) のリスト、および言語のルールを使用します。もしあなたがオランダ語を知らないなら、私はあなたを助けることはできませんが、スペイン語でそれがどのように行われるかを示します.
- 複数形は s で終わります。そうでない場合は完了です
- s で終わる場合は、
- それが s で終わる動詞または活用形であるかどうかを確認し、それが 1 つである場合は完了です (動詞はストップワード リストに追加できます)。
- 動詞でない場合は、s を削除します
- 単語が辞書に存在する場合は完了
- 前の文字を削除しない場合は、辞書で確認してください。
- まだそこにない場合は、手動でチェックして例外をコード化する必要がある例外です(今のところ考えられませんが、それらは常に存在します:)
- s で終わる場合は、
もちろん、これは直接オランダ語に翻訳されるわけではありません。
一般に、ステマーはすでに完成しており、必要なもののほとんどを提供しています。
于 2008-10-01T14:01:59.650 に答える
1
答えは正解ですが、オランダ語には不規則動詞がたくさんあることに注意してください。これにより、ステミングは一連の単一ルールよりもテーブル ルックアップの問題になります。
コーパスにアクセスする必要があります。オランダ語のコーパスはhttp://corpus1.mpi.nl/ds/imdi_browser/にあります。
于 2012-09-27T09:05:49.770 に答える
1
Stemmer はユーザーに多くの迷惑をかけるため、そのうちの 1 つを使用する場合は、単数形/複数形以外のすべての機能を無効にする必要があります。したがって、要件は、複数形/単数形の変換のみを使用することです。
于 2008-10-01T14:14:32.457 に答える