私は特定のトピックのニュースを収集し、それらに対してベイジアン分類を実行して、それらを興味深いまたは興味のないものとしてマークします。記事が違うニュースは本質的に同じニュースだと思います。例-ベンキングズレーが妻と一緒にタージマハルを訪問-タージの芝生でキングズレーロマンスの妻
これらすべてを重複としてマークするようにシステムに教えるにはどうすればよいですか?
ありがとうSanjay
私は特定のトピックのニュースを収集し、それらに対してベイジアン分類を実行して、それらを興味深いまたは興味のないものとしてマークします。記事が違うニュースは本質的に同じニュースだと思います。例-ベンキングズレーが妻と一緒にタージマハルを訪問-タージの芝生でキングズレーロマンスの妻
これらすべてを重複としてマークするようにシステムに教えるにはどうすればよいですか?
ありがとうSanjay
面白いアイデア。これは以前に研究されたことがあると思いますが、いくつかのcomp-sciジャーナルを見ると、いくつかの良い指針が見つかるはずです。それはここに私が持っているいくつかのアイデアがあります:
最もユニークなキーフレーズを見つけて、それらが他の記事のキーフレーズとどれほどよく一致しているかを確認できます。私は、ウェブ上のフレーズの頻度に関してグーグルによって公開されたデータがあなたにベースラインを与えるだろうと想像します。
「inthe」は非常に一般的なフレーズですが、「Kingsleyvisits」は重要であるという事実をどういうわけか理解する必要があります。すべてのテキストをキーフレーズだけに絞り込んだら、それらのどれだけが一致するかを確認できます。
キーフレーズ:
これを自分で書くのは簡単ではありませんが、非常に興味深い問題領域だと思います。
タイトルだけを使用して、手作業で方法を実行する場合。
ベン・キングズレーが妻と一緒にタージ・マハルを訪問すると、次のキーワードが作成されます。
ただし、これらは一般的すぎるため削除する必要があります(したがって、コンテンツを一意に識別するのに役立ちません)
タージの芝生にいる他のタイトルのキングスリーロマンスの妻でも同じことが行われると、かなりの数のキーフレーズが互いに一致していることがわかります。したがって、彼らは同じ主題にあります。
これはすでに大規模な事業ですが、マッチングを促進するためにできることはたくさんあります。
これらはすべて、作成されたキーワードセットを削除する方法です。
WordNetは、「より長い」と「延長する」の一致を検討するための素晴らしいスタートとなるでしょう。これは、記事の執筆に同じレキシコンを使用しないので便利です。
キーフレーズとしてカウントされるものに対してベイジアンクラスファイアを実行できます。すべての一致/不一致の記事とそれらのキーフレーズのセットを持つことによってトレーニングすることができます。目に見えないフレーズは、遭遇する最も重要なものである可能性が高いため、どのように扱うかについて注意する必要があります。キーフレーズではないもので実行する方が良いかもしれません。
他に一致するものが見つからない場合は、いくつかのキーフレーズ間のレーベンシュタイン距離を計算することも考えられます。常にいくつかの一致が見つかる可能性が高いと思います。
これは、非常に良い答えがあなたに博士号を取得するものの1つであると私は感じています。繰り返しになりますが、私はそれが以前にすでに行われていると思います(グーグルはそれらすべてのニュースサイトをスクレイプしてカテゴリや同様の記事に合わせるための何らかの自動方法を持っている必要があります)
それで頑張ってください。
これは分類の問題ですが、異なるクラスの数を考えると難しいです。1つのオプションは、特徴選択を使用して各ドキュメントのサイズを縮小することです(詳細)。特徴選択には、上位n個の用語の選択が含まれます(ストップワードを除き、場合によっては各単語にもステミングを適用します)。これを行うには、ドキュメントごとに相互情報量を計算します(詳細)各用語の、その番号で用語を並べ替え、各ドキュメントの上位n個の用語を選択します。各ドキュメントの上位n用語のこの削減された機能セットは、重複選択を実行するための基礎を形成できるようになりました(たとえば、ドキュメント間にx%を超える共通用語がある場合、バックテストによってxが計算されます)。
このほとんどは、情報検索に関するこの無料の本でカバーされています。