データディクショナリを含む単語ドキュメントがあります。
たとえば、FUELという変数は次のように記述されます。
FUEL -- What type of fuel does it take?
1 Gas
2 Diesel
3 Hybrid
4 Flex fuel
7 OTHER, SPECIFY
ドキュメントをPostgreSQLテーブルに変換したい。何か提案はありますか?
データディクショナリを含む単語ドキュメントがあります。
たとえば、FUELという変数は次のように記述されます。
FUEL -- What type of fuel does it take?
1 Gas
2 Diesel
3 Hybrid
4 Flex fuel
7 OTHER, SPECIFY
ドキュメントをPostgreSQLテーブルに変換したい。何か提案はありますか?
一般に、この種の処理には2つの段階があります。1つ目は、テキスト処理ツールとスクリプトを使用するか、Excelなどを使用して、データを適切な表形式にマッサージします。
表形式になったら、データをCSV
(たとえば、Excelで名前を付けて保存して)出力し、適切なコマンドを実行した後、COPY
コマンドまたはpsqlを使用してPostgreSQLにロードし、CSVの構造と一致するテーブル構造を定義します。\copy
CREATE TABLE
編集:更新された投稿を考えると、ドキュメントに内部構造化マークアップが含まれていない限り、おそらくこれのために単純なパーサーを作成する必要があると思います。ドキュメントをプレーンテキストとして保存します。次に、PerlやPythonなどの言語でスクリプトを記述します。このスクリプトは、変数を定義する見出しを探し、その行から大文字の変数名と説明を抽出し、番号が付けられたオプションを使い果たして次の変数を読み取る準備ができるまで読み取ります。ドキュメントが均一に構造化されている場合、これにはいくつかの基本的な正規表現を含む数行のコードのみが必要です。あなたはおそらくそれをで行うことさえできますawk
。スクリプトにCSVを記述して後でインポートできるようにするか、DBD::Pg
(Perl)やpsycopg2
(Python)などのデータベースインターフェイスを使用してデータを直接保存します。
スクリプトツールがわからない場合は、コピーアンドペーストを習得するか、非常に上手に習得する必要があります。