python - データ認識、解析、フィルタリング、および変換-GUI？

Question

データ変換を行うための非クラウドベースのオープンソースアプリを探しています。ただし、データ変換用に構築されたばかりのキラー（つまりキラー）アプリの場合、最大$1000を費やしても構わないと思っているかもしれません。

Perl、Kapow Katalyst 、 PentahoKettleなどを見てきました。

Perl、Python、Rubyは明らかに言語ですが、データを処理するためだけのフレームワーク/DSLを見つけることができません。つまり、これらは実際には優れた開発環境ではありません。つまり、正規表現、入出力（CSV、XML、JDBC、RESTなど）を構築するためのGUIが構築されておらず、データの行と行をテストするためのデバッガーもありません。悪くはありませんが、私が探しているものではありません。これは、複雑なデータ変換用に構築されたGUIです。そうは言っても、GUI /アプリファイルがスクリプト言語であり、人間が読めないXML/ASCIIファイルに保存されているだけではないのであればいいのですが。

Kapow Katalystは、HTTP（HTML、CSS、RSS、JavaScriptなど）を介してデータにアクセスするために作成されています。非構造化テキストを変換するための優れたGUIを備えていますが、それはコアバリューの提供ではなく、非常に高価です。ドキュメントの名前空間パスをトラバースするという問題はありません。構文は同じように見えるので、バックエンドのXPathだけだと推測します。

Pentaho Kettleには、最も一般的なデータストアの入力/出力用の優れたGUIがあり、データ処理を独自に処理します。これは大丈夫で、学習曲線が小さいだけです。Kettleのデバッガーは、データが見やすいという点で問題ありませんが、エラーと例外は出力にスレッド化されておらず、問題を実際にデバッグする方法はありません。つまり、出力/エラー/例外をリロードすることはできませんが、システムフィードバックを表示することはできます。とはいえ、ケトルのデータ変換は_______です。「不可能な場合は、JavaScriptで変換を記述してください」と完全に戸惑っていたので、何かが足りないように感じたとしましょう。うーん、何？

それで、何か提案はありますか？私は実際には変換を指定していないことを認識してください。ただし、データの改ざんに実際に製品を使用している場合は、それについて知りたいと思います。優れていると思います。

ただし、一般的には、現在、10〜100列で1000〜100,000行を処理できる製品を探しています。データセットをプロファイリングできれば、それは非常にクールです。これは、Kettleのような機能ですが、あまりうまくいきません。また、単体テストを組み込みたいのですが、これは、データのコントロールセットを構築し、コントロールセットに対して行われた変更を実行できることを意味します。次に、ビルドを変更せずに変換をビルドするときに、行と列を選択的に除外できるようにしたいと思います。たとえば、変換を介してデータセットを実行し、結果をフィルタリングすると、次の実行では、これらのセットは最初の「論理的」発生時に自動的にブロックされます。つまり、「調べる」データが少なくなり、強化された反復ごとの実行時間が短縮されます。クレイジーなのは、私が dアプリがそれらを追跡している行/列を除外します（そして出力は除外されました）。ユニットテスト/変更を強調表示しました。アプリケーションログに影響を与える変更を加え、「ブランチを壊す」ことに基づいて単体テストを追跡する機能がある場合は、警告が表示され、データが保存されているブランチをダンプします...および/または追跡します次世代の出力の違いの主キー、またはファジーロジックを使用してそれらを一致させようとすることさえできます。そして、はい、私はこれが夢のようなものであることを知っています、しかしねえ、私が今まで見たことがない何かがそこにある場合に備えて、私が尋ねると思いました。

コメントしてください。質問に答えたり、追加情報を提供したりできます。

score 3 · Accepted Answer

3

Google リファイン?

于 2010-12-03T02:52:52.903 に答える

score 2 · Accepted Answer

Talend では、基本的な変換の接続を開始し、バージョン管理された制御変換を保持するという要件を満たすために、5 分以上、おそらく約 1 時間近く必要になります。同じ生データがさまざまな変換とフィルタリングを経て、必要に応じて最終出力として到着するまで、プロジェクトに複数の入力と出力がある場合に、Talend で簡単に実行できるパイプラインプロセスについて説明しました。次に、同様のデータに対してプロセスを繰り返すようにジョブをスケジュールできます。戻ってTalendにもっと時間を費やせば、必要なことで成功するでしょう.

私はたまたま Google Refine のコミッターの 1 人でもあり、日常業務で Talend を使用しています。実際、私は最初に Google Refine で Talend の変換をモデル化することがあります。(Refine を使用して、壊れた ETL 変換自体のクリーンアップを実行することさえあります! LOL ) Talend での私の経験は、Google Refine のいくつかの機能で小さな役割を果たしたと言えます。たとえば、Talend と Google Refine の両方に、変換用の式エディターの概念があります (Talend は、必要に応じて Java 言語に移行します)。

大規模なデータウェアハウスのバックエンド処理と変換に ETL が通常使用される場合、Google Refine は ETL ツールではありません。ただし、Google Refine は、Talend などの既存の ETL ツールを補完するように設計されており、簡単なライブプレビューで変換とクリーンアップについて十分な情報に基づいた決定を行うことができます。 .

score 1 · Accepted Answer

あなたが行おうとしているデータの種類や変換の種類が正確にはわかりませんが、主に数学的変換である場合は、おそらくFreeMat、Octave、またはSciLabを試すことができます。それがよりデータウェアハウススタイルの変更である場合は、 Clover、Talend、JasperETL Community Edition、またはJitterbitなどのオープンソース ETL ツールを試してください。

python - データ認識、解析、フィルタリング、および変換-GUI？

3 に答える 3

Related

Reference