カスタム ルールで大量のデータ ファイル (.csv) を操作できるソフトウェア オプションを特定したいと考えています。フィールド、およびその他のカスタム ルール。任意のガイダンスをいただければ幸いです。
2 に答える
簡単なグーグルの「データスクラビングユーティリティ」はこれを見つけました:
http://data-scrubbing.qarchive.org/
彼らはあなたが探しているものに非常に近いようです。
それは、ルールがどれほど複雑になるかによって大きく異なります。単純なものよりもはるかに複雑で、おそらく何かをコーディングする (またはコーディングする) だけで先を行くでしょう。
このタスクには Talend Open Studio を使用できます。これは、データの操作と統合のためのオープンソースの ETL ツールです。たとえば、ImportCSV >> DATABASE >> 変換を実行 >> ExportCSV を実行できます。可能性は無限大。
ここで見つけることができます: http://www.talend.com/products-data-integration/talend-open-studio.php
また、データのプロファイルを作成しようとしているようにも思えます。これには、Talend Open Profiler を使用できます。最近、.csv などのフラット ファイルのサポートが追加されました。使い方は簡単で、30 分で起動して実行できるはずです。
ここからダウンロードできます: http://www.talend.com/products-data-quality/talend-open-profiler.php
ここでいくつかのチュートリアルを見つけることができます: http://www.talendforge.org/tutorials/menu.php
チュートリアルで [Data Quality] タブを選択し、[Talend Open Profiler] まで下にスクロールします。
これは、新しいデータセットのデータ品質を評価する最初のステップです。