データで何が起こっているのかを本当に知らなくても、txtファイルからデータベースに読み込むことはあまり意味がありません...それをマッサージして他のリンクコードを追加してから、txtファイルに再ダンプしますデータベースから除外するだけです。データベースに残します。
レコードが追加される速度 (ディスク容量も) は?
どのタイプのレポートが生成されていますか? 統計ですか? 一般集計?
一般的な集計だけの場合は、ロールアップされた数値のカテゴリ、分類などを含む別のテーブルをデータベースに保持します。その後、ダンプしたすべてのテキスト ファイルを再インポートする代わりに、そこからレポートを実行できます。時間単位 (または日単位) のような「要約」表を作成すると、レポート プロセスを簡単に簡素化できます。
データのサンプリングと予想されるレポート出力がなければ、単一のアプローチを固めるのは難しいでしょう。
---- コメントごとのフィードバック
過去に通話データ レコード (CDR) 情報を扱ったことがありますが、そこにもたくさんのがらくたがあります。私が重要だと考えるものの全体的な記録はかなり限られています。また、電話会社の 1 日の通話数は数百万件にすぎず、それらを追跡する必要があると、データベースのディスク容量が過負荷になる可能性があるため、何らかのアーカイブ プロセスは理にかなっていますが、一般的なロールアップはそれほど多くありません。すべての発信番号と宛先番号を呼び出した回数を追跡していたとしても...または異なる発信番号からの共通の宛先番号がいくつロールアップされ、全体的なレポート統計が制限される可能性があります.
--- 例: 政府が通話を追跡していない場合 (いいえ... 彼らはそうしている???)、何人の人が X さんに電話をかけているのか、X さんも何人電話をかけているのかを知りたいと思うかもしれません。懸念は、通信の両方向にあります。パターンが特定され、アラームがスローされると、出力テキスト ファイルが作成された後にダンプされない別の追跡テーブルにレコードを集中して保持できます...いいえ、私は政府やそのような機関で働いていません誰がこれを行うかもしれません。
-- 何を保持するか 保持しようとしている情報のタイプについて提案することしかできません... PBX システム、幹線の発信元、内線番号を気にしますか? 最初に必要な重要な要素を保持し、すべての記録保持ベースから役に立たない情報を取り除くことから始めます.
Origination Calling Number/Extension
Destination Number
International Country being called
Call Time Start
Call Duration
PBX システムと Call-Data-Records を扱ってから 10 年以上になりますが、これらがデータの共通のコアであることはわかっています。CDR のレイアウトによっては、呼び出される番号を標準化する必要がある場合があります。あるシステムが 1 つの完全な電話番号として保存し、別のシステムが国際電話のプレフィックス用に別々に保存する場合、ダイヤルの一致は見つかりません。
555-1234 対 +014 555-1234
偽の電話番号が合法的でないことはわかっていますが、私の発信元がどこにあるのかはご理解いただけると思います。