database - 膨大なデータセットを収集、維持、および正確性を確保するためのベストプラクティスは何ですか?

Question

システムの設計方法に関する実際的なアドバイスを求めて、この質問を投げかけています。

amazon.com や pandora などのサイトは、コアビジネスを実行するために膨大なデータセットを保持しています。たとえば、Amazon (および他のすべての主要な電子商取引サイト) には、何百万もの販売用の製品、それらの製品の画像、価格設定、仕様などがあります。

サードパーティの販売者から入ってくるデータとユーザーが生成したコンテンツを無視すると、その「もの」はどこかから来なければならず、誰かによって維持されます。また、非常に詳細で正確です。どのように？どうやってやっているの？データ入力の事務員が大勢いるだけですか、それとも単調な作業を処理するシステムを考案したのでしょうか?

私の会社も似たような状況です。私たちは、自動車部品とそれらが適合する車の膨大な (1,000 万件のレコード) カタログを維持しています。しばらくの間、カタログの成長と正確さを維持するための多くのプログラムとプロセスを考え出しました。ただし、チームをyに成長させるには、カタログをxアイテムに成長させる必要があるようです。

データチームの効率を高める方法をいくつか考え出す必要があり、他のチームの作業から学べることを願っています。どんな提案でも大歓迎ですが、それ以上は、真剣に読むのに時間を費やすことができるコンテンツへのリンクです.

score 5 · Accepted Answer

訪問者を使用します。

アイテムごとに1人でも、間違った記録があり、顧客はそれを見つけるでしょう。そのため、アイテムに「不適切」のマークを付けて、短いコメントを付けてもらいます。しかし、忘れないでください。彼らはあなたの従業員ではありません。あまり質問しないでください。Facebookの「いいね」ボタンを参照してください。使いやすく、ユーザーのエネルギーをあまり必要としません。良いパフォーマンス/価格。Facebookに「なぜそれが好きなのか」という必須フィールドがある場合、その機能を使用することはできません。
訪問者はまた、暗黙の方法を支援します。訪問者はアイテムページにアクセスし、検索機能を使用します（つまり、内部検索エンジンとGoogleなどの外部検索エンジンの両方を意味します）。訪問者の活動から情報を得ることができます。たとえば、最も訪問されたアイテムの順序を設定すると、リストの一番上に人力を集中させ、「ロングテール」には集中させる必要があります。

score 3 · Accepted Answer

そもそもそれを正しく構築してください。保存するものに応じて、使用しているデータベースで使用可能なすべての整合性チェック方法を使用してください。悪いデータが黙って導入されるよりも、アップロードが失敗した方がよいでしょう。

次に、独自の整合性チェックに関して何をするかを考えます。DB の整合性チェックは良い出発点ですが、それだけで十分な場合はほとんどありません。これにより、作業しているデータの種類、データをどのように保存する必要があるか、不良データや疑わしいデータを認識してフラグを立てたり拒否したりする方法について、最初から考える必要があります。

ガベージデータでいっぱいの古いシステムを作り直そうとする (または単に日常的に作業する) ことから見た苦痛の量を説明することはできません。それを正しく実行し、事前に徹底的にテストすることは苦痛のように思えるかもしれませんが、それは苦痛のように思えるかもしれません.

リンクに関しては、スケーラビリティについて考え、設計しなければならなかった人がいるとすれば、それは Google です。これは参考になるかもしれませんが、覚えておくとよいことがいくつかあります: http://highscalability.com/google-architecture

score 3 · Accepted Answer

これは実装ではなくチーム/コード/データの管理に関するものなので、Amazon について言及したので、これが役立つと思います: http://highscalability.com/amazon-architecture。

特に、Werner Vogels のインタビューへのリンクをクリックしてください。

score 2 · Accepted Answer

マスターデータ管理は、提案されたものの別の代替手段です。 Microsoft の記事「マスターデータ管理の内容、理由、および方法」は次のとおりです。データスチュワードには、企業のデータの正確性を維持する権利/責任が与えられます。

スケーリングの主な能力は、データ担当者だけが情報を管理できる人ではないように、テクノロジをビジネスに合わせることから得られます。ツールとプロセス/手順により、ビジネスオーナーは企業データの管理を支援できます。

score 1 · Accepted Answer

日付をサプライヤーと共有します。その後、データが 1 回入力されます。

重要な場合は一度実行する必要がありますが、そうでない場合はまったく実行しないでください。

score 1 · Accepted Answer

Site like google によって管理されるデータの多くは、ユーザーからのものです。私は自分のデータを入力し、その正確性について責任を負います。サイトにはデータがあり、Web から取得されます。検索データは、検索から取得されます。これは、あなたが試みているものとは大きく異なる可能性があります。Google のスタッフがそれを処理する必要はほとんどありません。

メーカーのフィードを使用することで、労力を軽減することができます。トレードオフは、データ変換ソフトウェアへの投資です。相互参照ごとにソースを取得したい場合があります。これにより、更新を取得する際のリロードが容易になります。

私の経験から、相互参照が一方向である可能性があるという問題もあります。A は B を置き換えることができますが、B は A を置き換えることはできません。

手動で入力している限り、エラーが発生します。これらのエラーを検出するためにインターフェースでできることは、おそらく努力する価値があります。スタッフへの入力量は直線的にスケーリングする必要があります。

注意サイクルに関する研究を見直して、入力プロセスと検証プロセスの質を向上させるために何かできるかどうかを判断してください。セキュリティスキャンに関する最近の調査によると、検証データで定期的なエラーを生成する必要がある場合があります。

他の人が指摘したように、ユーザーがエラーにフラグを立てやすくすることは良い考えです。

score 1 · Accepted Answer

私はデータマイニングに多額の投資をします。販売しようとしている製品に関するフィードをできるだけ多く取得します。ベンダーから直接、また Mitchell や Haynes などの自動車修理会社から、車両に関するフィードを取得します。

必要な部品がわかったら、それらの部品番号をインターネットで入手できる部品番号と相互に関連付けます。また、これらの部品番号を画像、レビュー、および記事と相互に関連付けます。できるだけ多くの情報を 1 ページに集約し、最終的にそのページが Google にインデックスされるようにします。

データ集計の結果に基づいて、一連の重みを各製品に割り当てます。重量の値に基づいて、結果を従業員に渡し、サプライヤーと価格交渉を行うか、そのままのページを作成してソースへのリンクを作成するか (コミッションを受け取ると仮定します)、または部品を販売しないでください。 .

1 か所に十分な製品があれば、Web サイトに製品を追加したい他の人をサポートできます。Amazon で利用できるリソースの幅広さは、主にサードパーティの販売者をサポートし、それらの販売者が Amazon の Web サイトにリストできるようになっているためです。

特に自動車産業では、特定のコンポーネントを交換しようとしている人々がグーグルで見つけられるだけでなく、論理的に見つけられる高品質のインデックス作成において、彼らは大きな価値があると思います. また、購入を検討しているコンポーネントに基づいて、IP ジオロケーションを介してロケーション固有のサービスを販売/提供することを検討することもできます。

database - 膨大なデータ セットを収集、維持、および正確性を確保するためのベスト プラクティスは何ですか?

7 に答える 7

Related

Reference

database - 膨大なデータセットを収集、維持、および正確性を確保するためのベストプラクティスは何ですか?