0

私は、ユーザーが好きなものを検索し、さまざまな場所から1つのページにコンテンツを取得できるシステムを持っています。

私は検索結果をキーワード/ラベルまたはいくつかのキーワードで制限しているので、ユーザーは決して求めたことのないがらくたを取得しません。そして、検索を間違えないように、常にメインのマーケット/レーベルのテーマ(キーワード)にこだわっています。

最初は問題ありませんでしたが、このシステムの開発に没頭すると、取得するコンテンツを予測したりフィルタリングしたりできないことを理解し始めました。

システムは自動です。「クリスティアーノロナウド」を検索すると、彼の写真、ビデオ、ツイッター、ニュースなどが表示されます。これらすべてからページを作成するとき、検索エンジン最適化を強化するために、コンテンツ内で最も反復的な単語を使用して、「もっと見る」などのリンクでさらに多くの単語を提供したり、1回のユーザー検索に基づいてより多くのページを生成したりします。

自動コンテンツクローラーがでたらめなコンテンツを持ち込み始めたとき、私は問題に遭遇しました。「ヴァージンアトランティック航空」を検索すると、必要な航空会社の情報が表示されます。その情報のコンテンツとキーワードの一部を使用して、さらに詳しく調べます。関連性のあるバージンアトランティック航空の情報が表示されますが、私は表示されません。欲しいです。それからそれは東/西、そして次に米国をもたらし、そしてそれは間違った方向にどんどん深くなります。

それは簡単でした。私の本当の質問...読むべきアルゴリズム、理論、または他のものはありますか、そして私が手動で設定したメインテーマに対するコンテンツ/キーワードのテーマ/方向/意味/関連性を認識することは可能ですか?

したがって、->スポーツ関連のコンテンツのみを検索すると、ロナウドの新しいガールフレンドに関するニュースは表示されませんが、彼の統計、キャリアデータなどは表示されません。

手動でコンテンツをフィルタリングし、AIに「ACCEPT / DECLINE」と伝えるように人を配置してもかまいません。そうすれば、要求されたテーマ/パターンに従って何を持っていくか、何を持ってこないかを学習できます。

ニューラルネットワーク、コンテンツを認識する他のAIアルゴリズムはありますか?

4

1 に答える 1

2

簡単な答え:隠れマルコフモデルとベイジアンネットおよびセマンティックWeb調査を見てください。このトピックに関する研究で図書館全体を埋めることができます。

長い答え

AIの問題は通常、これらのタイプの問題は非常に難しいことです。はい、たくさんの理論があります。しかし、それらの理論を実装することは別のことです。私は、企業が何らかのエンジンを構築しているのを見てきましたが、それは彼らが非常に誇りに思っています。しかし、彼らは通常、ツールに焦点を合わせており、実際に解決したい問題を忘れています。それが私がAI-blackbox-problemと呼ぶ問題です。隠れマルコフモデル、ニューラルネット、ベイジアンネット、カルマンフィルター、サポートベクターマシンなどのアルゴリズムがあります。次に、それらに大量のデータをスローすると、パラメーター化されたモデルの束が出力されます。しかし、多くの場合、内部状態を追跡することはできません。

したがって、セマンティックWebの問題を解決したい場合は、最も難しい問題の1つを選択しました。あなたが探しているものをコンピュータに伝える方法は?Googleはリンク構造を使用して情報を取得します。次に、セマンティックWebの支持者がいます。これは、コンテンツプロバイダーが一連のメタデータを追加する必要があると言っています。このアプローチはほとんど失敗したと思います。この分野で新しいことをしようとしている新しいスタートアップが常にあります。Palantirは、おそらくデータマイニング会社の1つです。

ですから、トイプロブレムを使って基本を学び、ラッセル/ノーヴィグなどの教科書を手に取って、オンラインでできるようになったクラスに行くことをお勧めします。http://www.udacity.com/overview/Course/cs373 / CourseRev / apr2012、そしてそこから行きます。難しい問題で遊んでも問題はありませんが、イライラするのは簡単です。あなたの問題は有限の時間とリソースで解決できることを知ってください。(私自身、ほとんど不可能な問題に5年間取り組んできたと言っています)。

于 2012-10-26T13:04:53.037 に答える