データ変換を行うための非クラウドベースのオープンソースアプリを探しています。ただし、データ変換用に構築されたばかりのキラー(つまりキラー)アプリの場合、最大$1000を費やしても構わないと思っているかもしれません。
Perl、Kapow Katalyst 、 PentahoKettleなどを見てきました。
Perl、Python、Rubyは明らかに言語ですが、データを処理するためだけのフレームワーク/DSLを見つけることができません。つまり、これらは実際には優れた開発環境ではありません。つまり、正規表現、入出力(CSV、XML、JDBC、RESTなど)を構築するためのGUIが構築されておらず、データの行と行をテストするためのデバッガーもありません。悪くはありませんが、私が探しているものではありません。これは、複雑なデータ変換用に構築されたGUIです。そうは言っても、GUI /アプリファイルがスクリプト言語であり、人間が読めないXML/ASCIIファイルに保存されているだけではないのであればいいのですが。
Kapow Katalystは、HTTP(HTML、CSS、RSS、JavaScriptなど)を介してデータにアクセスするために作成されています。非構造化テキストを変換するための優れたGUIを備えていますが、それはコアバリューの提供ではなく、非常に高価です。ドキュメントの名前空間パスをトラバースするという問題はありません。構文は同じように見えるので、バックエンドのXPathだけだと推測します。
Pentaho Kettleには、最も一般的なデータストアの入力/出力用の優れたGUIがあり、データ処理を独自に処理します。これは大丈夫で、学習曲線が小さいだけです。Kettleのデバッガーは、データが見やすいという点で問題ありませんが、エラーと例外は出力にスレッド化されておらず、問題を実際にデバッグする方法はありません。つまり、出力/エラー/例外をリロードすることはできませんが、システムフィードバックを表示することはできます。とはいえ、ケトルのデータ変換は_______です。「不可能な場合は、JavaScriptで変換を記述してください」と完全に戸惑っていたので、何かが足りないように感じたとしましょう。うーん、何?
それで、何か提案はありますか?私は実際には変換を指定していないことを認識してください。ただし、データの改ざんに実際に製品を使用している場合は、それについて知りたいと思います。優れていると思います。
ただし、一般的には、現在、10〜100列で1000〜100,000行を処理できる製品を探しています。データセットをプロファイリングできれば、それは非常にクールです。これは、Kettleのような機能ですが、あまりうまくいきません。また、単体テストを組み込みたいのですが、これは、データのコントロールセットを構築し、コントロールセットに対して行われた変更を実行できることを意味します。次に、ビルドを変更せずに変換をビルドするときに、行と列を選択的に除外できるようにしたいと思います。たとえば、変換を介してデータセットを実行し、結果をフィルタリングすると、次の実行では、これらのセットは最初の「論理的」発生時に自動的にブロックされます。つまり、「調べる」データが少なくなり、強化された反復ごとの実行時間が短縮されます。クレイジーなのは、私が dアプリがそれらを追跡している行/列を除外します(そして出力は除外されました)。ユニットテスト/変更を強調表示しました。アプリケーションログに影響を与える変更を加え、「ブランチを壊す」ことに基づいて単体テストを追跡する機能がある場合は、警告が表示され、データが保存されているブランチをダンプします...および/または追跡します次世代の出力の違いの主キー、またはファジーロジックを使用してそれらを一致させようとすることさえできます。そして、はい、私はこれが夢のようなものであることを知っています、しかしねえ、私が今まで見たことがない何かがそこにある場合に備えて、私が尋ねると思いました。
コメントしてください。質問に答えたり、追加情報を提供したりできます。