data-quality - 名前/住所データを照合するための無料、低コスト、またはオープンソースのツールはありますか？

Question

この質問は、名前/住所データを照合するためのツールに関連しています。SAS、Oracle、Microsoftなどが提供する多数の商用ツールがあり、複数のソースからの個人または企業の名前を重複排除またはマージすることができます。

しかし、前述の質問に対する回答を読んだ後、なぜ一見興味深い問題が、その問題に取り組むことができるオープンソースプロジェクトについて言及する回答を受け取らなかったのか疑問に思いました。

いわゆる「レコードのリンク」、「レコードのマージ」、または「クラスタリング」を実装するためのオープンソースプロジェクトまたはアルゴリズムを知っていますか？

score 4 · Accepted Answer

粗雑なデータを解析および修正するためのオープンソース (新しい BSD ライセンス) ツールとして、 Google Refineをお勧めします。また、データマイニング機能だけでなく、重複データのクラスタリングと調整も可能にします。

私はそれを使用して、.csv、.tsv、.xls、.xml、.json、.rdf などのさまざまな形式の多くのデータを正常にインポートおよび修正しました。「名前・住所データを照合するツール」という質問の懸念事項だったようで、データを外部に送信せずに社内で使用できます。

注意。Google Refine は、以前は Freebase Gridworks と呼ばれていました。

score 0 · Accepted Answer

次の記事に出くわしました：「マージ/パージと重複検出」。

http://www.semaphorecorp.comを見ると、非常に低価格であることがわかりました。

これは私が探しているものではありませんが、少なくとも少しは役に立ち、正しい方向への一歩です。

score 0 · Accepted Answer

sourceforge で OSDQ オープンソースデータ品質およびプロファイリングプロジェクトを試す

3 に答える 3