0

このリソースを使用して、Webページからキーワードを抽出しています。正常に動作しますが、一部の単語の形式が正しくありません。「記憶」という言葉は「記憶」として抽出され、「記事」は「アーティクルとして抽出されます。同様の動作をする他の多くのキーワードがあります。これは、関数の引数としてこのURLから抽出されたいくつかのキーワードのリスト(var_dump($ uniqueKeywords))です。

PS:私は数字を取り除いていません。

4

1 に答える 1

3

単語は、ステミングアルゴリズムを使用して変換されます。ステミングにより、さまざまな形の単語を一致させることができます。たとえば、「記憶」「記憶」はどちらも「記憶に変換されます。語幹のある単語は通常実際の単語ではありませんが、比較のためにのみ使用する必要があることに注意してください。

この動作を望まない場合は、チュートリアルの「語幹」セクションをスキップしてください。

于 2013-02-06T07:24:18.940 に答える