私は、ユーザーのクエリを受け入れて意味のあるキーワードを抽出するシステムを構築する必要がある Web インテリジェンスのプロジェクトに取り組んでいます。たとえば、ユーザーがクエリ「How to do socket programming in Java
」を入力すると、無視"how", "to", "do", "in"
し"socket", "programming", "java"
てさらなる処理とクラスタリングを行う必要があります。たとえば、ソケットとプログラミングは 2 つの異なる意味のあるキーワードですが、異なる意味を生成するキーワードとして一緒に使用できます。TF-IDF
この問題にアプローチするようなアルゴリズムを探しています。どんな助けでも大歓迎です。
1500 次
1 に答える
3
あなたがテキスト分析ソリューションを調べているのは何ですか。
私はこの目的でのみ R を使用しましたが、それを見る 1 つの方法は、意味のないキーワードではないと見なす単語のリストが必要であることです。これはしばしば「ストップ ワード」と呼ばれます。ほぼすべての一般的な言語のストップ ワードのオンライン リストを見つけることができます。これを行った後、数百の入力を取得し、そこにあるすべてのキーワードの頻度を計算し (ストップ ワードと句読点を既に削除し、すべてのテキストを小文字にします)、他のキーワードと思われるものを識別しようとする場合があります。無関係であり、削除する単語のリストに追加してください。
この後、探索できるオプションがたくさんあります。例としては、「ページ」と「ページ」が同じキーワードと見なされるように、各単語のコア タームを取得するステミングがあります。(さらに深く掘り下げると、オンラインでアプローチを微調整するための膨大な情報が見つかります)
お役に立てれば。
于 2012-09-18T11:25:46.080 に答える