私は、非営利団体が既存のデータをデータベースに整理するのを支援しています。データには約200レコードが含まれています。彼らは簡単な単語文書を使用しています。データベースに入力できるように、生データを構造化する作業を開始しています。私はデータをTextpadにコピーしました、そしてそれはとてもうまくいきました。つまり、データは構造化されていますが、完全には一致していません。たとえば、一部の組織にはWebサイトがあり、一部にはないなどです。残りのデータを示す情報のサンプルを次に示します。
私はERDを作成しましたが、それはいくつかの改訂を経て、私のメンターから青信号を与えられました。この時点で、私はETL(抽出、変換、読み込み)プロセスにいます
- 残りの部分的に構造化されているが乱雑なデータをクリーンアップします。
- それをExcelで読み取り可能なドキュメント型に入れ、該当するテーブルに配置します
- データ入力SQLスクリプトを作成します。
- スクリプトを実行します。
私はすでに他のいくつかのデータでこれを行っており、それは完全に機能しました。
クリーンアップしてExcel(CSVまたはタブ区切り)に配置するのは、ガイダンスが必要な場所です。それとも、XMLに変換する方が良いですか?テキストファイルを手動で調べて、すべてのヘッダー(より適切な単語がないため)が次のように一致することを確認すると、次のようになります。
それを転送する方法はありますか?
私はこれを調査しましたが、良い情報が見つからなかったので驚きました。[更新]実際の用語であるETLプロセスを見つけました。再入力や切り取りと貼り付けを開始する必要がある場合は、お知らせください。