多くのデータ変換と処理操作を必要とする研究プロジェクトを開始しようとしています。一方で、データはかなり大規模です (未加工のデータセットの場合は 10 GB が一般的です)。そのため、効率が問題になります。一方、これらの操作の多くは 1 回限りであり、再実行されることはめったにないため、デプロイ可能なアプリケーションを構築するのはやり過ぎです。これはユーザー アプリケーションではなく、ほとんどが実験です。
いくつかの特徴と制約:
- JSON および XML から表形式への多くの連鎖形式変換、次にパッチ適用、テキスト インデックス作成、他の形式へのエクスポートなど。
- 私はマルチコア マシンを持っていますが、少なくとも最初は複数のマシンは持っていません。
- データは全体としてメイン メモリに収まらず、私の経験から、いくつかのコアを活用する必要があります。
このようなプロジェクトを処理するための推奨ツールは何ですか? 私の好みは次のとおりです。
- 複数のフォーマット (JSON、XML、CSV) の可能な限り簡単な処理
- 複数のソースとシンク (テキスト ファイル、アーカイブ、データベース) のサポート
- 複数のコアを利用する
- 管理、展開の問題などを最小限に抑えます。
プログラミング言語は問題ではなく、Windows または Linux を管理できます。ありがとう!