1

私は、データ ディクショナリを伴うタブ区切りのテキスト ファイルとして入手できる、運輸省からのいくつかの大規模な政府データセットを扱っています。たとえば、自動苦情ファイルは 670Mb のラベルなしデータのファイル (解凍時) であり、ディクショナリが付属しています。ここにいくつかの抜粋があります:

Last updated: April 24, 2014

FIELDS:
=======

Field#  Name            Type/Size     Description                      
------  ---------       ---------     --------------------------------------
1       CMPLID          CHAR(9)       NHTSA'S INTERNAL UNIQUE SEQUENCE NUMBER.
                                      IS AN UPDATEABLE FIELD,THUS DATA FOR A
                                      GIVEN RECORD POTENTIALLY COULD CHANGE FROM 
                                      ONE DATA OUTPUT FILE TO THE NEXT. 
2       ODINO           CHAR(9)       NHTSA'S INTERNAL REFERENCE NUMBER. 
                                      THIS NUMBER MAY BE REPEATED FOR 
                                      MULTIPLE COMPONENTS.
                                      ALSO, IF LDATE IS PRIOR TO DEC 15, 2002, 
                                      THIS NUMBER MAY BE REPEATED FOR MULTIPLE 
                                      PRODUCTS OWNED BY THE SAME COMPLAINANT.

一部のフィールドには、次のようにリストされた外部キーがあります。

21      CMPL_TYPE       CHAR(4)       SOURCE OF COMPLAINT CODE:
                                        CAG  =CONSUMER ACTION GROUP
                                        CON  =FORWARDED FROM A CONGRESSIONAL OFFICE
                                        DP   =DEFECT PETITION,RESULT OF A DEFECT PETITION
                                        EVOQ =HOTLINE VOQ
                                        EWR  =EARLY WARNING REPORTING
                                        INS  =INSURANCE COMPANY
                                        IVOQ =NHTSA WEB SITE
                                        LETR =CONSUMER LETTER
                                        MAVQ =NHTSA MOBILE APP
                                        MIVQ =NHTSA MOBILE APP
                                        MVOQ =OPTICAL MARKED VOQ
                                        RC   =RECALL COMPLAINT,RESULT OF A RECALL INVESTIGATION
                                        RP   =RECALL PETITION,RESULT OF A RECALL PETITION
                                        SVOQ =PORTABLE SAFETY COMPLAINT FORM (PDF)
                                        VOQ  =NHTSA VEHICLE OWNERS QUESTIONNAIRE

Microsoft Access のインポート手順がありますが、私は持っておらず、持っていたとしても使用しません。しかし、このデータ ディクショナリは、機械で読み取れるように意図されていたと思います。

私の質問: このデータ ディクショナリは何らかの標準形式ですか? Google で検索してみましたが、適切な用語がないと難しいです。Rにインポートしたいのですが、プログラムで実行できる限り柔軟です。

4

0 に答える 0