私はクイズシステムを作成しています。クイズ作成者が質問バンクに質問を挿入するとき、重複した/非常に類似した質問がないかDBをチェックします。
MySQLのMATCH()... AGAINST()をテストすると、100%類似した文字列に対してテストした場合、得られる最高の関連性は30以上です。
では、関連性は正確には何ですか?マニュアルを引用するには:
関連性の値は、負でない浮動小数点数です。関連性がゼロの場合、類似性がないことを意味します。関連性は、行の単語数、その行の一意の単語数、コレクション内の単語の総数、および特定の単語を含むドキュメント(行)の数に基づいて計算されます。
私の問題は、文字列が重複している場合に関連性の値をテストする方法です。100%重複している場合は、QuestionBankに挿入されないようにします。しかし、それが非常に似ている場合は、クイズメーカーに確認、挿入するかどうかを尋ねます。では、どうすればよいですか?100%同一の文字列の30+はパーセンテージではないので、私は切り株です。
前もって感謝します。