「(驚いたことに) インターネットはうわさや信頼できない情報でいっぱいです。」- アーノルド・シュワルツェネッガー
この例のように、この情報の一部は「その場で」分析できますが、1 つ以上の信頼できる情報源をたどるのに時間がかかるものもあります。
自動チェックアルゴリズムを作成することが可能かどうかを考えていました。それを「BSタガー」と呼びましょう。これは、たとえばfirefoxプラグインとして実装され、選択されたテキストの真実性と、それを疑わしい著者に一致させる真正性を判断できます/ソース。
私が考えたこのアルゴリズムを実装する最初のアプローチは、単純な Google 検索を実行して結果の数を確認することでしたが、(驚いたことに) 人気と信憑性/信憑性はそれほど強く相関していないことがわかりました。
それから、もっと精巧なものを考えました: ある種の「BSRank」アルゴリズムと呼びましょう。これは、ほとんど同じように動作し、グーグルなどで動作しますが、テキストを再現する「信頼できる」ソースが見つかった場合にのみ、確率を追加しますその「真実性」(または、元のコカ・コーラの公式とされるものではなく、ボブ・ディランの引用とされるものをチェックするだけの場合は、信憑性)。
それから私は立ち往生しました:明らかに、このアルゴリズムを機能させるには、2つのものが必要です:
-信頼できる情報源の動的な「ホワイト リスト」。
-このソースを特定してランク付けするためのアルゴリズム、webrep スタイルですが、それよりもさらに複雑です。1 つの Web で多くのユーザーまたは作成者が公開している可能性があり、次に公開しているという理由だけでそれらすべてに同じ信頼性を与えるべきではないためです。お互い。
したがって、アルゴリズム内のアルゴリズムは、ここでの本当の難しいトリックです。私の疑問は非常に一般的なものであり、それらがここに属しているかどうかさえわかりませんが、いくつかの意見をいただければ幸いです。何か提案はありますか? この問題または関連するプロジェクトを解決するためのより良いアプローチを見ている人はいますか? これは、学生の余暇のリソースで実行できると思いますか?それとも新人プログラマーにとっては多すぎるプロジェクトだと思いますか?