1

この質問は、名前/住所データを照合するためのツールに関連しています。SAS、Oracle、Microsoftなどが提供する多数の商用ツールがあり、複数のソースからの個人または企業の名前を重複排除またはマージすることができます。

しかし、前述の質問に対する回答を読んだ後、なぜ一見興味深い問題が、その問題に取り組むことができるオープンソースプロジェクトについて言及する回答を受け取らなかったのか疑問に思いました。

いわゆる「レコードのリンク」、「レコードのマージ」、または「クラスタリング」を実装するためのオープンソースプロジェクトまたはアルゴリズムを知っていますか?

4

3 に答える 3

4

粗雑なデータを解析および修正するためのオープン ソース (新しい BSD ライセンス) ツールとして、 Google Refineをお勧めします。また、データマイニング機能だけでなく、重複データのクラスタリングと調整も可能にします。

私はそれを使用して、.csv、.tsv、.xls、.xml、.json、.rdf などのさまざまな形式の多くのデータを正常にインポートおよび修正しました。「名前・住所データを照合するツール」という質問の懸念事項だったようで、データを外部に送信せずに社内で使用できます。

注意。Google Refine は、以前は Freebase Gridworks と呼ばれていました。

于 2010-06-24T10:43:24.243 に答える
0

次の記事に出くわしました:「マージ/パージと重複検出」。

http://www.semaphorecorp.comを見ると、非常に低価格であることがわかりました。

これは私が探しているものではありませんが、少なくとも少しは役に立ち、正しい方向への一歩です。

于 2010-05-10T21:25:55.517 に答える
0

sourceforge で OSDQ オープン ソース データ品質およびプロファイリング プロジェクトを試す

于 2014-01-18T17:51:57.277 に答える