私は、テキスト ファイルの解析 (ETL アプローチの適用) に関連する小さな開発プロジェクトに参加しています。ローカル マシンで正しく動作するデモ コードを作成しましたが、それを Apache Tomcat コンテナにデプロイすると、メモリ オーバーフローや型変換などに関連する多くのエラーが生成されます。
これは一般的な事実です:
これはファイル構造です(メモでは、各セルのデータ型とその他の関連情報が指定されています)。
RegisterType1は顧客ごとに 1 回だけ繰り返され、RegisterType2は 1 回以上繰り返され、RegisterType3とRegisterType4は 1 回繰り返されることに注意してください。
また、レジスタ タイプごとに長さが異なることにも注意してください。たとえば、RegisterType1 は 12 フィールド、RegisterType2 は 10 フィールドなどです。
前に言ったように、私の現在のパーサーはコードが非常に悪いため、多くのエラーが発生します。これは実際のコードであり、これ(db 接続を作成してクエリを実行するクラス) です。
これは、解析が必要なテキスト ファイルの例です。
現在の開発環境 プラットフォーム:Java 6 コンテナ:Tomcat 7 VPSプロファイル:RAM 1.7GB、ストレージ:20GB、プロセッサ:(Intel(R) Xeon(R) CPU X5650 @ 2.67GHz、24コア)。
実際の問題:
- パフォーマンスが悪い
- メモリオーバーフロー
- 解析エラー: データ型変換、フィールド間の区切り文字 (セミコロン) (例: ...Paris;Fran[ここにセミコロン]ce;...)
効率的で、正確で、高性能なパーサーを作成したいと考えています。
このトピックへの提案が必要です。優れたパーサーを作成する最良の方法はどれですか?
事前に情報をありがとう。
よろしく、