(この質問は、プログラミングではなく、データ精製への戦略と高レベルのアプローチに関するものです。そのため、トピックから外れている場合は...前もって申し訳ありませんが、より良いstackexchangeコミュニティを見つけることができませんでした)
したがって、私たちは、多数のユーザーによって新しいデータが導入され (ボトムアップの貢献)、モデレーター/管理者/信頼できるユーザーによって定期的に洗練、修正、分類、強化される (トップダウンの洗練) という (典型的な) シナリオにいます。
このシナリオは、Web サイトでは非常に一般的です (stackexchangetags
が良い例です)。
労力を最小限に抑え、データの品質を最大化するための「最善の戦略」はありますか?
ここでいくつかの疑問があります:
- データが検証プロセスに合格するように強制するか、システムにデータを入力させ (一定のレベルの誤り/不一致を受け入れ)、発生した最も人気のあるものを修正/強化します。
- ボトムアップの到着を予測して、できるだけ多くのデータをシステムにトップダウンで事前入力します。
- ボトムアップ エントリが他のデータと一貫性を保つのに役立ちます (ユーザー向けのオートコンプリートと意味ボックス)。