15 GB のフラット ファイル抽出とその仕様を取得しました。これは、各行レコードを識別し、必要な情報を収集するために各行を分割する方法に役立ちます。このバルクファイルのテキスト処理はjavaではできないと思ったので、ETLツールを利用しようと思っています。でも今はLuceneについて読むようになりました。今、本当に混乱しています。以下は私の疑問です:
- Apache Lucene は、メモリの問題なしに 15GB のフラット テキスト ファイルを処理できますか。
- 各行を読み取り、識別子を識別し、識別子に基づいて行データを分割し、マップされたデータベースにロードする15GBフラットファイルのパフォーマンスベンチマークは何ですか.
- このタスクに Apache Lucene を使用できますか、それとも ETL ツールを使用できますか?