2

クエリで意味のあるデータを抽出することにより、ユーザーの入力 (おそらく質問) をフィルタリングする簡単な方法はありますか?

私は基本的にノイズ ワードを除外して、「クリーンな」クエリを Google の検索 API に送信できるようにしたいと考えています。

4

4 に答える 4

2

ええと、Google はあなたのためにこれを行いませんか? これらすべての汚い言葉を Google に送信して、Google にクリーンアップしてもらいましょう。

于 2008-12-22T18:49:12.537 に答える
1

以前のスタックオーバーフロー ポッドキャストの 1 つで、ジェフは「ストップ ワード」について話しました。そのフレーズをグーグルで検索してみてください。ウィキペディアのページには、いくつかの概要とオプションへのポインタがあるようです。

http://en.wikipedia.org/wiki/Stop_words

于 2008-12-22T18:46:15.040 に答える
0

最も一般的な上位 X 個の英単語を削除してみることができますが、このような素朴なアプローチでは常に問題が発生します。

これは、一般的な英語の単語が、コンピューター サイエンスの領域 (またはその他の領域) で特別な意味を持つ可能性があるためです。最近の SO ポッドキャスト ( #32 ) は、まさにこの問題について言及しています。

于 2008-12-22T18:46:39.453 に答える
0

基本的な検索エンジンを実装するときにストップ ワード アプローチを使用したところ、問題なく動作しました。ここにあるようなサンプルリストを試してください

ユーザーからのフィードバックに基づいて、それに応じてストップ ワード リストを変更できます。

于 2008-12-22T19:13:35.263 に答える