0

このテキストを考えると:

「フレンズとは、友好的で友好的な分類クラスを分類する友好的な友好的なものです。花のような花は、花の流れに沿って流れます」

次の結果を得るには、テキストにステミングを適用する必要があります。

frequency("following")                = 1
frequency("flow")                     = 2
frequency("classification")           = 1
frequency("class")                    = 1
frequency("flower")                   = 3
frequency("friend")                   = 4
frequency("friendly")                 = 4
frequency("classes")                  = 1

FAST検索エンジンとのインターフェースとして。FAST はコンテンツにインデックスを付けて、関連する検索結果をクエリに提供します。インデックス作成の 1 つの側面はステミングであり、これを解決するには C# または Ruby を使用する必要があります。

最善のアプローチについての意見をいただければ幸いです

4

2 に答える 2

2
    public StemmingProcessorResults ProcessText(string text)
    {
            return new StemmingProcessorResults(
                    new []{
                        new StemmingProcessorResultItem("following", 1),
                        new StemmingProcessorResultItem("flow", 2),
                        new StemmingProcessorResultItem("classification", 1),
                        new StemmingProcessorResultItem("class", 1),
                        new StemmingProcessorResultItem("flower", 3),
                        new StemmingProcessorResultItem("friend", 4),
                        new StemmingProcessorResultItem("friendly", 4),
                        new StemmingProcessorResultItem("classes", 1)
                    }
                );
    }

さあ、コピー&ペーストのニーズにぴったりです。

于 2010-11-01T16:15:20.553 に答える
0

受け入れ基準に誤りが含まれているため、テキストに「ステミングを適用」してこれらの結果を取得することはできません。つまり、頻度(「フレンド」)は5である必要があります。定義上、すべてのステミングアルゴリズムが受け入れ基準を生成することはできません。したがって、 Rob Ashtonのように、これらの値を与えるアルゴリズムはすべて実行する必要があります。また、switchステートメントや辞書ルックアップを使用することもできます。これらの数値を出力するだけです。

于 2012-12-30T11:53:51.443 に答える