2

生データはデータベース(複数のテーブル)に保存されます。手動でチェックして修正する必要があります。チェックされたデータは、生データとともにデータベースに保存する必要があります。その場合、2 つの別個のデータベース (例: raw_data と checked_data) を作成することをお勧めしますか? または、データベースは 1 つだけにする必要がありますか? ありがとう

4

3 に答える 3

0

2 つの異なるデータベースのみを使用するよりも、生データとチェック済みデータが非常に小さい場合

正規化と手順を使用すると、1 つのデータベースでそれを維持できます。

于 2011-05-06T05:50:57.233 に答える
0

ここでは、独自の好み以外に推奨される方法はありません。クレンジングされたデータを生データとともに同じデータベースに保存できますが、異なるテーブルに保存できます。また、生データ テーブルに raw_ などの接頭辞を付けることができます。

そうしないと、データの種類ごとに個別のデータベースが作成される可能性があります。利点は分離であり、欠点はより高価になるため、これら 2 つの間で行う必要がある場合は参加などです。

于 2011-05-06T05:51:45.513 に答える
0

一般的に言えば、複数のインスタンス間で作業するよりも、単一のインスタンス内で作業する方がはるかに簡単です。分散トランザクションのパフォーマンスが低下します。より多くの入力が必要です (常にデータベース リンクを追加する必要があります)。これは利便性の問題だけでなく、完全性の問題でもあります。特定のレコードが RAW データ セットまたは CLEANSED データ セットのいずれかに含まれていることを確認したい場合がありますが、両方には含まれていません。この種のチェックは、単一のデータベースでより管理しやすくなります。

単一のデータベースで物事を整理する方法は、選択した DBMS のフレーバーと、それがサポートするものにある程度依存します。単一のスキーマ (ユーザー アカウント) を持ち、プレフィックスなどの命名規則を使用できます (RAW_TABLE_1 や CLEAN_TABLE_1 など)。または、RAW_USER.TABLE_1 と CLEAN_USER.TABLE_1 など、同じテーブル名を保持できる別のスキーマを使用することもできます。どちらの方法にも利点があります。生のデータとクリーンなデータのどちらを扱っているかを常に思い出しておくことは常に良いことです。一方、通常のテーブル名を期待する、使用したいツールやアプリケーションがあるかもしれません。この点で同義語が役立ちます。

于 2011-05-06T06:02:14.430 に答える