クエリで意味のあるデータを抽出することにより、ユーザーの入力 (おそらく質問) をフィルタリングする簡単な方法はありますか?
私は基本的にノイズ ワードを除外して、「クリーンな」クエリを Google の検索 API に送信できるようにしたいと考えています。
クエリで意味のあるデータを抽出することにより、ユーザーの入力 (おそらく質問) をフィルタリングする簡単な方法はありますか?
私は基本的にノイズ ワードを除外して、「クリーンな」クエリを Google の検索 API に送信できるようにしたいと考えています。
ええと、Google はあなたのためにこれを行いませんか? これらすべての汚い言葉を Google に送信して、Google にクリーンアップしてもらいましょう。
以前のスタックオーバーフロー ポッドキャストの 1 つで、ジェフは「ストップ ワード」について話しました。そのフレーズをグーグルで検索してみてください。ウィキペディアのページには、いくつかの概要とオプションへのポインタがあるようです。
最も一般的な上位 X 個の英単語を削除してみることができますが、このような素朴なアプローチでは常に問題が発生します。
これは、一般的な英語の単語が、コンピューター サイエンスの領域 (またはその他の領域) で特別な意味を持つ可能性があるためです。最近の SO ポッドキャスト ( #32 ) は、まさにこの問題について言及しています。
基本的な検索エンジンを実装するときにストップ ワード アプローチを使用したところ、問題なく動作しました。ここにあるようなサンプルリストを試してください
ユーザーからのフィードバックに基づいて、それに応じてストップ ワード リストを変更できます。