ブランド「ONE」をオンラインで監視する必要があるとしましょう。ブランドONEに関するページを一般的な単語ONEを含むページから分離するために使用できるアルゴリズムは何ですか?
ベイズがうまくいくかもしれないと思っていますが、これを行う他の方法はありますか?
ブランド「ONE」をオンラインで監視する必要があるとしましょう。ブランドONEに関するページを一般的な単語ONEを含むページから分離するために使用できるアルゴリズムは何ですか?
ベイズがうまくいくかもしれないと思っていますが、これを行う他の方法はありますか?
それが本当にユニークな言葉ではない場合、私は次のアプローチを提案します。
私たちのキーワードがJavaであると想像してみましょう。次に、少なくとも2つのカテゴリがあります。プログラミングとインドネシアの観光についてです。最初のものに興味があります。
Javaについての小さなテキストを見てみましょう(おそらく本やウィキペディアから)。次に、いくつかのしきい値(たとえば、0.7)を想定します。次に、テキストをさまざまなページと比較してみましょう(最も速い方法の1つは、クラシックベクトル空間モデルアルゴリズムを使用することです。自分で実装するか、Googleで実装を見つけることができます)。次に、結果をしきい値と比較し、弱い結果をフィルタリングします。
ベイズアルゴリズムの使用について:それは悪いアプローチimoではありません。ただし、いくつかの不正な入力が作業全体を台無しにする可能性があるため、アルゴリズムを慎重に「教える」必要があります。
説明させてください。ベイズアルゴリズムの入力は、ブランドワードを含むテキストです。出力は、テキストがあなたのブランドに関するものであり、他の何かに関するものではない確率[0..1]です。実際には、このアルゴリズムは0または1に近い結果をもたらすことが非常に多く、0.2〜0.8の値を返すことはめったにありません。これは、アルゴリズムが小さな変化に非常に敏感であり、100語のテキストの1つまたは2つの単語が結果に深刻な影響を与える可能性があることを意味します。
監視では、ブランドONEをその製品、その執行役員、またはその挑戦者と関連付けることができます。
あなたが探している用語は、概念学習または概念抽出です。ワンという言葉は多くのページに登場しますが、ほとんどの場合、それは量としてのワンの概念を指します。ONEブランドのコンセプトを指すことはめったにありません。(もう1つの頻繁に使用される例は、アストラルオブジェクトsunのようなSUN、またはSunという名前の会社です)。
アリ・ラパポルトがこのトピックについて多くの研究をしていることを私は知っています。実際には、これはmouvicielの答えのようなものに 要約されますが、Ariの調査では、1つの番号と1つのブランドを区別するために検索する必要のある関連単語を自動的に推測する方法についても説明しています。
私は、ウィキペディアを巨大なオントロジー(各ハイパーリンクはソースノードとエンドノードの間の関係)と見なして、物事にアプローチしました。
編集:「Java」の例を使用した、非常に大まかなアルゴリズムの1つ:
使用する距離は非常に主観的であり、ニーズに合わせて少し調整する必要があります。HTMLの解析は大きな苦痛になるため、各ページの「コア」を取得するのにも問題がある可能性があります。
この問題に対する教師なしアプローチをお勧めします。
正しい文脈で「ONE」を説明する可能な限り多くのドキュメントを入手し、コーパスを作成します。
標準英語コーパスに対して、そのコーパスで統計的にありそうもないフレーズを見つけます。
このウェブサイトは良い例を示しています
http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc。
ご覧のとおり、ipod、powerpcなどのブランド固有の用語は簡単に除外されます。
それらを抽出したら、 新しい記事を監視するために「SIP」や「ONE」などのクエリを使用して、Googleアラートまたは同様の同等のもの(Googleアラートが単純すぎる場合)を作成できます。
もちろん、このアプローチが監視されていないことを考えると、あまり効率的ではないかもしれませんが、作業を行う必要があります。
別のアプローチは、「トピックごとにカテゴリに整理されたWeb」を持つGoogleディレクトリでページを検索することです。各ページのカテゴリ情報を使用して、ページの内容を判断できる可能性があります。