米国内のすべてのアドレス範囲を含む大量のテキスト ファイル (合計 8 GB) を取得しました。このセットは次のもので構成されています。
929 個の ZIP+4 ファイルで、それぞれに固有の 3 桁の郵便番号の住所が含まれています。たとえば、ファイル 606 には、606 で始まる 5 桁の郵便番号を持つ住所のみが含まれます。これらのファイルの合計レコード数は、約 3,000 万です。
郵便番号とそれに対応する市と州の包括的なリストを含む市州ファイル。
City State Key を使用して、City State ファイルを ZIP+4 ファイルに結合できます。
データベースのサイズと経験不足を考えると、この取り組みを始める前に、ある程度の洞察を得たいと思いました。ZIP+4 ファイルを 1 つのモンスター ファイルにマージしてから、郵便番号を使用してインデックスを作成する必要がありますか、それとも 3 桁の郵便番号ファイル名をブロックの一致基準として使用できるように、3 桁の郵便番号で区切って残す必要がありますか? もし後者なら、これは階層データベースモデルではないでしょうか? 階層モデルを使用して都市状態ファイルとの関係を調整できますか?
上記のデータ セットの説明は大幅に簡略化したものですが、この質問の目的上、詳細な説明は不要です。完全な説明はここにあります。
私は Python を使用していますが、まだ RDBMS を決定していません。どんな助けでも大歓迎です!