0

過去 2 年間に収集されたユーザーから報告された数千 (20,000) の問題がある MYSQL テーブルに取り組んでいます。そして今、私はこの報告された問題を別々に扱わなければなりません.私が直面している問題は、これらの報告された問題の多くが似ているということです. そして、テーブルで一致を見つけたいと思います。

そして、ここでも問題は、「報告された問題」が手動で書かれているため、互いに異なることです。ただし、一致する単語にはいくつかの一般的な単語が含まれる場合があります

だから、一般的な単語でMYSQLテーブルで一致を見つける方法があるかどうか疑問に思っています.

私がここでやろうとしているのは、特定のキーワードを使用せずに同様の行 (多くのキーワードで一致する) を取得することです。

それを行うツールはありますか?それを行う方法はありますか?私は自分の作品であるあらゆる種類の php スクリプトにもオープンです。よろしくお願いします

4

1 に答える 1

0

まず、ドメイン知識のある人に、繰り返し発生する絶対的な上位 2 つか 3 つの問題を尋ねます。彼らはこれらを巻き取ることができるはずです。

それらの 2 つまたは 3 つの主要な問題で使用されている用語と同義語を提供するように依頼してください。そうでない場合は、自分で行う必要があります。

テーブルのクローンを作成し、そこにFULLTEXTインデックスを配置して、一致の問題を特定する際に全文検索がどれほど効果的かを確認します。

これがコーパスからかなり良い結果をもたらさない場合は驚くでしょうが、それらが十分でない場合は、NLP (自然言語処理) の分野に迷い込むことをお勧めします。より自然に適合するのはツールセットです。ただし、Pythonで使用できます。

もう 1 つの方法は、ある種のタグ付けシステムを組み込むことですが、最良のものは人間の介入に依存しており、その成功は GUI がどれだけうまく構築されているかに大きく依存します。

于 2013-08-15T09:47:48.647 に答える