“duplicate-data”の関連問題_Stack Overflow日本語サイト

0 投票する

11 に答える

13639 参照

algorithm - 重複データを検出する方法は？

単純な連絡先データベースがありますが、ユーザーが重複データを入力する際に問題が発生します。簡単なデータ比較を実装しましたが、残念ながら、入力されている重複データは完全に同じではありません。たとえば、名前のつづりが間違っているか、同じ人の1人が「BillSmith」を入力し、別の人が「WilliamSmith」を入力します。

それで、エントリが別のエントリにどれほど類似しているかのパーセンテージを与えることができるある種のアルゴリズムはありますか？

grom

2008-08-28T01:54:18.500

0 投票する

13 に答える

772960 参照

sql - Oracle のテーブルで重複する値を見つけるにはどうすればよいですか?

特定の列の重複値と、Oracle データベーステーブルでの重複値を返す最も単純な SQL ステートメントは何ですか?

例:JOBS列を持つテーブルがありますJOB_NUMBER。JOB_NUMBER重複したs があるかどうか、およびそれらが重複している回数を確認するにはどうすればよいですか?

sql oracle duplicate-data

Andrew

2008-09-12T15:10:27.277

0 投票する

2 に答える

358 参照

sql - データベースの重複値の問題 (以前の値に基づくフィルタリング)

今週初め、実行時に重複する値を順番に除外する方法について質問しました。いくつかの良い答えがありましたが、調べていたデータの量が遅くなり、実行可能ではありませんでした.

現在、データベースでは、イベント値はフィルタリングされていません。データ値が重複する (さまざまなタイムスタンプを持つ)。実行時にそのデータを処理する必要があり、データベースレベルでは時間がかかります (また、ストアドプロシージャで頻繁に使用されるため、コードに取り込むことができません)。その結果、クエリ時間が長くなります。実行時に追加のフィルタリングが必要ないように、このデータストアをフィルタリングしてクエリできるデータ構造が必要です。

現在、DBにある

「F07331E4-26EC-41B6-BEC5-002AACA58337」、「1」、「2008-05-08 04:03:47.000」
「F07331E4-26EC-41B6-BEC5-002AACA58337」、「0」、「2008-05-08 10:02:08.000」
'F07331E4-26EC-41B6-BEC5-002AACA58337', '0', '2008-05-09 10:03:24.000' (これを削除する必要があります) **
「F07331E4-26EC-41B6-BEC5-002AACA58337」、「1」、「2008-05-10 04:05:05.000」

私たちの必要なもの

「F07331E4-26EC-41B6-BEC5-002AACA58337」、「1」、「2008-05-08 04:03:47.000」
「F07331E4-26EC-41B6-BEC5-002AACA58337」、「0」、「2008-05-08 10:02:08.000」
「F07331E4-26EC-41B6-BEC5-002AACA58337」、「1」、「2008-05-10 04:51:05.000」

これは些細なことのように思えますが、私たちの問題は、ワイヤレスデバイスからこのデータを取得することです。その結果、パケットのシーケンスが乱れ、ゲートウェイがマルチスレッド化されているため、取得した値が正しいことを保証できません。4 秒前は「1」、2 秒前は「0」のように何かが入ってくるかもしれませんが、「1」は最初に入っていたので既に処理しています。データをデータベースの最新の値と比較することはできません。実際には最新の値がまだ入っていない可能性があるためです。したがって、現在、入ってくるすべての値を保存し、データベースは時間に基づいて自分自身をシャッフルします..しかし、イベントはまだアクティブであるため、ユニットは 1,1,1,0 とその有効な値を送信できます。

何か案は？

さらに情報が必要かどうか尋ねます。

[編集] PK 機能しません - 問題は、ユニットが実際に異なるタイムスタンプを送信することです。1,1,1 は同じなので PK は機能しませんが、タイムスタンプが異なります。そのようなイベントは time1 で発生し、イベントは time2 で引き続き発生し、両方が返されます..同じ値の異なる時間。

sql performance triggers filtering duplicate-data

Bobby

2008-09-25T15:35:45.833

0 投票する

4 に答える

884 参照

sql - 重複するエントリを作成せずに SQL テーブルの連絡先をマージする

ListID と PersonID の 2 つの列のみを保持するテーブルがあります。システム内で人物が別の人物とマージされると、「ソース」人物からのすべての参照を「宛先」人物への参照になるように更新する必要がありました。

理想的には、次のような単純なものを呼び出したい

ただし、送信元の人物と同じ ListID を持つ送信先の人物がこのテーブルに既に存在する場合は、重複したエントリが作成されます。重複したエントリを作成せずにこのアクションを実行するにはどうすればよいですか? (ListID、PersonID が主キー)

編集: 複数の ListID が使用されます。SourcePerson が ListID 1、2、および 3 に割り当てられ、DestinationPerson が ListID 3 および 4 に割り当てられている場合、最終結果には 4 つの行 (ListID 1、2、3、および 4 に割り当てられた DestinationPerson) が必要です。

sql tsql duplicate-data

Jeffrey

2008-09-25T18:46:49.743

0 投票する

6 に答える

1889 参照

sql - 警告のある重複を削除する

行 ID、経度、緯度、ビジネス名、URL、キャプションを含むテーブルがあります。これは次のようになります。

重複をすべて削除し、URL があるものだけを保持する (最優先)、または URL がない場合にキャプションがあるものを保持し (2 番目の優先順位)、残りを削除するにはどうすればよいですか?

sql sql-server duplicate-data

RyanKeeter

2008-09-29T21:53:18.020

0 投票する

12 に答える

58511 参照

sql - 実行時間の長いクエリを停止すると、ロールバックしますか?

重複を削除するために 1700 万件のレコードをループするために使用されるクエリは、現在約16 時間実行されています。削除ステートメントを終了するかどうか、またはこの実行中に削除されているかどうか、クエリが現在停止されているかどうかを知りたいと思いました。クエリ? 実際、停止した場合、削除またはロールバックが終了しますか?

私がするとき、私はそれを発見しました

(このクエリの実行中に) 返される行数は、最初の行数よりも約 5 行少なくなります。明らかに、サーバーリソースは非常に貧弱です。つまり、このプロセスは 5 つの重複 (実際には数千あるのに) を見つけるのに 16 時間かかり、これは何日も実行される可能性があるということですか?

このクエリは、2000 行のテストデータで 6 秒かかりましたが、そのデータセットではうまく機能するため、完全なセットを取得するには 15 時間かかると考えました。

何か案は？

以下はクエリです。

sql sql-server duplicate-data

RyanKeeter

2008-10-02T12:13:49.587

0 投票する

11 に答える

5646 参照

sql - パフォーマンスのために数百万行を超える SQL 重複削除クエリ

これは冒険でした。前の質問にあるループ重複クエリから始めましたが、各ループは1,700 万レコードすべてを超えるため、数週間かかります(MSSQL 2005 を使用してサーバーを実行するだけで*select count * from MyTable*4:30 分かかります)。私はこのサイトとこの投稿から情報を集めました。

そして、以下のクエリに到達しました。問題は、これがどのタイプのパフォーマンスでも 1,700 万件のレコードに対して実行する正しいタイプのクエリであるかということです。そうでない場合、何ですか？

SQL クエリ:

sql sql-server duplicate-data sql-delete

RyanKeeter

2008-10-02T13:41:58.580

0 投票する

3 に答える

398 参照

python - マッピングのリストから一意のアイテムを抽出する

彼は、最も Pythonic なソリューションを探す興味深い問題です。mappings のリストがあるとし{'id': id, 'url': url}ます。リスト内のいくつかidのが重複しているため、すべての重複を削除して新しいリストを作成したいと考えています。私は次の機能を思いついた：

かなり効率的だと思います。しかし、「よりPython的な」方法はありますか? それとももっと効率的な方法ですか？

python unique duplicate-data

eliben

2008-10-09T06:28:26.823

0 投票する

1 に答える

2007 参照

text - あいまいさのある重複テキストを検出する方法

少し前に、Text::DeDupeを使用して小さなスクリプトを作成し、ブログ投稿の重複を目にする前に削除しました。

実装の基になっている Web の構文クラスタリングに関する論文を読んだ後、重複するドキュメント (たとえば、全文ではなくブログの抜粋、引用など) を見つけられるようになりたいと思っています。

C、C++、または perl で、自分で作成する前に試すことができる他の実装を知っていますか?

text diff duplicates duplicate-data duplication

dpavlin

2008-10-24T15:46:14.530

0 投票する

26 に答える

336029 参照

php - PHP の配列から重複した値を削除する方法

PHPの配列から重複した値を削除するにはどうすればよいですか?

php arrays duplicate-data

Ian Cook

2008-11-21T02:37:15.243

問題タブ [duplicate-data]

Reference