2

「(驚いたことに) インターネットはうわさや信頼できない情報でいっぱいです。」- アーノルド・シュワルツェネッガー

この例のように、この情報の一部は「その場で」分析できますが、1 つ以上の信頼できる情報源をたどるのに時間がかかるものもあります。

自動チェックアルゴリズムを作成することが可能かどうかを考えていました。それを「BSタガー」と呼びましょう。これは、たとえばfirefoxプラグインとして実装され、選択されたテキストの真実性と、それを疑わしい著者に一致させる真正性を判断できます/ソース。

私が考えたこのアルゴリズムを実装する最初のアプローチは、単純な Google 検索を実行して結果の数を確認することでしたが、(驚いたことに) 人気と信憑性/信憑性はそれほど強く相関していないことがわかりました。

それから、もっと精巧なものを考えました: ある種の「BSRank」アルゴリズムと呼びましょう。これは、ほとんど同じように動作し、グーグルなどで動作しますが、テキストを再現する「信頼できる」ソースが見つかった場合にのみ、確率を追加しますその「真実性」(または、元のコカ・コーラの公式とされるものではなく、ボブ・ディランの引用とされるものをチェックするだけの場合は、信憑性)。

それから私は立ち往生しました:明らかに、このアルゴリズムを機能させるには、2つのものが必要です:

-信頼できる情報源の動的な「ホワイト リスト」。

-このソースを特定してランク付けするためのアルゴリズム、webrep スタイルですが、それよりもさらに複雑です。1 つの Web で多くのユーザーまたは作成者が公開している可能性があり、次に公開しているという理由だけでそれらすべてに同じ信頼性を与えるべきではないためです。お互い。

したがって、アルゴリズム内のアルゴリズムは、ここでの本当の難しいトリックです。私の疑問は非常に一般的なものであり、それらがここに属しているかどうかさえわかりませんが、いくつかの意見をいただければ幸いです。何か提案はありますか? この問題または関連するプロジェクトを解決するためのより良いアプローチを見ている人はいますか? これは、学生の余暇のリソースで実行できると思いますか?それとも新人プログラマーにとっては多すぎるプロジェクトだと思いますか?

4

1 に答える 1

2

これは、好きなようにシンプルにも複雑にもできる興味深いプロジェクトのように思えます。

シンプルバージョン

  • ソースのホワイト リストを手動で作成します。

  • それらのソースでターゲット フレーズと雄弁家の検索を行います。

(可能なソース: http://thinkexist.com )

より複雑

  • ソースのホワイト リストとブラック リストを作成します。

  • ターゲットを検索します。

  • ターゲットを含むページについて、それらがホワイトリストのソースまたはソースのブラックリストに類似しているかどうかを判断します。

(2 つの Web ページ間の類似性を取得するためのメソッドを作成する必要があります。)

さらに複雑

教師あり機械学習を使用する:

  • まず、一部の Web ページを信頼できる、信頼できない、またはその中間として手動でラベル付けします。

  • そのトレーニング データで機械学習システムをトレーニングします。

  • これで、機械学習システムが新しい Web ページのカテゴリを予測できるようになりました。

さらに複雑++

いくつかの方法に基づいて、教師あり機械学習システムを実際に自分で作成し、結果を比較します。

別のアイデア

教師あり機械学習システムを使用して、他の情報源を探すことなく、ターゲット フレーズ自体が信頼できると思われるかどうかを報告します。

ザ・ホール・ナイン・ヤード

教師なし機械学習学習システムを使用して、いくつかのシード キーワードまたはフレーズに基づいて、ホワイトリスト/ブラックリスト Web ページのコレクションを構築します。

The Whole 10 Yards (なぜ人々は 9 ヤードしか行きたくないのですか?)

おそらくブートストラップに基づいて、独自の教師なしシステムを作成します。

いくつかの最終的な考え

シンプルなものから始めて、上に移動することをお勧めします。

また、特定のソリューションがどの程度うまく機能するかを計算できるテスト装置を構築すると、さまざまなアプローチを比較できます。

システムが報告する偽陽性、陽性陽性、偽陰性、陰性陰性、および未決定の数を記録することをお勧めします。

そうすることで、精度と再現率を判断し、システムを評価できます。

単純なアプローチでは、精度が高く、再現率が低いと思います。

しかし、より複雑な方法は、検証において人間よりもはるかに高速なシステムを生み出す可能性がありますが、人間ほどうまくはいきません.

ラスト・シングス

この問題は古い問題であり、完璧を達成することはほぼ不可能です。

最近読んだいくつかのページを思い出しました。

于 2012-08-07T00:34:51.523 に答える