私はPython、PyTables、HDF5の初心者です。私は自分の問題に対するシンプルで最良の解決策を探しています。
次は問題です。一方では、データを含む多くのXMLファイルがあります。これらのファイルを解析して、反対側のhdf5ファイルにデータを入れたいだけです。後で、このデータをいくつかの検索条件で使用します。なぜHDF5なのですか?大きなデータセットを配置する必要があるため、そして速度のため。RDBMSを使用すると、JOIN操作中のパフォーマンスに問題が発生します。ソリューションは、速度と優れたメモリパフォーマンスを提供する必要があります。
いくつかのグーグルの後、私はPythonとPyTablesを可能な解決策として見つけました。私の考えは、JavaでXMLからデータを解析し(このコードはJavaで作成する必要があります)、その後、PyTables APIを使用してhdf5にデータを挿入し、JavaからPythonスクリプトを実行するPythonスクリプトを作成します。だから、私はJavaプログラムからPythonスクリプトを書いて実行しています。JavaでPythonスクリプトを作成するために、java.io。*パッケージを使用し、JavaでProcessクラスを実行します。例えば:
p.exec( "cmd / c C:\ MyScripts \ myscript.py")
この解決策が良いかどうかはわかりません。私にとって、java.io。*を使用してJavaからスクリプトを書くのはクールではありません。おそらく、後でスクリプトから結果を読み取る際に問題が発生します(PythonスクリプトとPyTables APIを使用して検索条件を作成する場合)。
ですから、私の問題についていくつか質問があります。一方の側でXMLデータを解析し、もう一方の側でデータをhdf5に保存するための最良の解決策は何ですか?私はこのソリューション(JavaコードからPythonスクリプトを記述して実行する)で正しい方向に進んでいますか?PythonとPyTablesはどうですか?これらのテクノロジーは私の問題の良い解決策ですか?また、Jythonに関するいくつかのことを読みましたが、PyTablesと組み合わせることが可能かどうかわかりません。
専門家からの意見やアドバイスは大歓迎です。助けてくれてありがとう。