“deduplication”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

61 参照

sql - SQLServerで結合を使用してテーブルを削除する

私はこのDBAに不慣れで、いくつかのテーブルから重複を削除する必要があります。私はSQLServerで働いています。それらはすべて、最後の更新を追跡するLAST_UPDと呼ばれるフィールドを持っています。すべてのテーブルがTABLE1に結合され、各ユーザーはTABLE1.ALIAS_KEYによって識別されます。参加は以下の通りです。重複するすべての行をクリーンアップして、Table2の最新のエントリを保持する方法を考えています。助けてくれてありがとう！

2012-09-08T20:09:54.970

0 投票する

2 に答える

921 参照

c# - .pst ファイルの重複排除による一意の電子メールの検出

私には（どうやら）大きな仕事が迫っています。
複数のフォルダーの異なるアーカイブボリュームを調べる必要があります (数テラバイトのデータについて話している)。各フォルダー内には .pst ファイルがあります。これらのフォルダー (およびファイル) の一部は、まったく同じ (名前またはファイル内のデータ) である場合があります。一度に 2 つ以上のファイルを比較して (可能であれば)、重複が見つかるかどうかを確認したいと考えています。重複が見つかったら、それらを削除して元のメールを保持し、最終的に一意のメールをすべて抽出する必要があります。

重複を見つけることができるプログラムがあることは知っていますが、これらのファイルでどの引数を渡す必要があるかはわかりません。また、そのような大量のデータを処理できるかどうかもわかりません。C# か VB でプログラミングしたいと思っています。私はどこから始めるべきか途方に暮れています。助言がありますか？？

元...

c#.net hash pst deduplication

2012-10-09T18:20:23.690

0 投票する

2 に答える

440 参照

mapreduce - Deduplicaton / Couchdbでのマッチング？

couchdbにドキュメントがあります。スキーマは次のようになります。

2人のユーザーは、実際には同じ人物であると思います。

メールまたは
personal_blog_urlまたは
電話

同一である。

3つのビューを作成しました。これは、基本的にemail / blog_url / telephoneをuserIdsにマップし、userIdsを同じキーの下のグループに結合します。

私の質問：

3つの異なるビューの結果を、重複を含まない最終的なユーザーテーブル/ビューにマージするにはどうすればよいですか？
または、couchdbでそのような重複排除を行うのが良い習慣かどうか。
または、ソファで重複排除を行うための良い方法は何でしょうか？

ps。最終ビューでは、すべての重複について、最小のuserIdのみを保持するとします。

ありがとう。

mapreduce couchdb matching deduplication

2012-10-22T18:14:50.930

0 投票する

1 に答える

1564 参照

sql - SQLサーバーでインポートされたレコードの重複排除

次のT_SQLストアドプロシージャがあります。これは、バックエンド分析スイートに新しくインポートされたレコードですべてのプロセスを実行するために必要な合計時間の50％を現在占めています。残念ながら、このデータは毎回インポートする必要があり、DBサイズが大きくなるにつれてボトルネックが発生します。

基本的に、レコード内のすべての重複を識別し、そのうちの1つだけを保持しようとしています。

クエリ実行プランから確認できるすべてのインデックスを追加しましたが、他の人と何とかして行ったように、SP全体を更新して別の方法で実行できる可能性があります。

sql stored-procedures sql-server-2012 deduplication

2012-10-23T00:14:32.373

0 投票する

2 に答える

174 参照

sql - 私が持っている情報で重複排除するための最良の方法は何ですか？

重複ファイル（.pst）を見つけて削除し、最終的に一意の電子メールを取得する必要があります。現在、Powershellを使用して、フォルダーを再帰的に調べて.pstファイルのみを検索し、特定のメタデータを.csvファイルにエクスポートしています。比較（名前、ファイルの日付など）を行うために.csvをSQLにインポートすることをお勧めします。その後、私は立ち往生しています。

必要なファイルを取得して残りを削除するには、どの言語またはプログラムが最適ですか？私はVB.Net（C＃を試すことができます）とPowerShellでかなり働いています。

sql deduplication pst

2012-10-25T18:20:32.747

0 投票する

1 に答える

1203 参照

powershell - Powershell: アレイの重複排除

オブジェクトに基づいてエントリを重複排除する必要があるパイプ区切りのフラットファイルがあります。具体的には、ファイルの一部は次のとおりです。

最初のフィールドは ID で、最後のフィールドはタイムスタンプです。ID ごとに最新のタイムスタンプエントリのみが保持されるように、エントリの重複を排除したいと考えています。したがって、必要な出力は次のようになります。

ファイルを読み取り、エントリを個別のオブジェクト名で配列に保存してから、試しました

日付がソートされると、ここで -unique として使用される get-unique コマンドレットが、ソートされた配列内の重複したエントリの最初または最後のいずれかを選択することを期待して、降順または昇順で日付をソートしますが、そうではなく、ランダムに 1 つのエントリを選択します。

get-unique コマンドレットがどのように機能するかを理解するのを手伝ってください。

powershell arraylist deduplication

2012-11-05T19:47:11.820

0 投票する

1 に答える

1077 参照

mysql - 重複排除 SQL を使用して数百万のレコードを挿入する

これは理論的なシナリオであり、大規模な SQL データベースに関しては、私は素人ではありません...

600 万のレコード (テーブル 1 からテーブル 2) から既存のデータベースに約 200 万のレコードを挿入するにはどうすればよいでしょうか (テーブル 1 からテーブル 2 へ)。すでに存在する）？

単純にサイト 1 からレコードを取得してサイト 2 に追加する方法は理解できますが、データの重複を引き起こさずにこれを大規模に行うにはどうすればよいでしょうか? 私はそれが苦労したことを発見したので、どんな読書源も私にとって役立つ以上のものです.

例: 表 1: site1Subscribers

site1Subscribers(subID、subName、subEmail、subDob、subRegDate、subEmailListNum、subThirdParties)

表 2: site2Subscribers

site2Subscribers(subID、subName、subEmail、subDob、subRegDate、subEmailListNum、subThirdParties)

mysql sql deduplication

2012-12-12T11:10:06.660

0 投票する

1 に答える

4584 参照

search - ElasticSearch で重複データを確認するにはどうすればよいですか?

一部のドキュメントを保存するときは、存在しないものを保存し、残りを無視する必要があります (これは、ドキュメントの ID が既に存在するかどうかを確認するなど、アプリケーションレベルで行う必要がありますか?)

search elasticsearch deduplication

2013-01-13T03:57:50.580

0 投票する

0 に答える

210 参照

regex - 正規表現による冗長情報の削除

次のタスクに正規表現 (.NET) を使用したいと考えています。

テキストファイルには、次の行が含まれています。

正規表現は、8 番目の文字 (0 対 1) を除いて行が同一であるケースを識別し、8 番目の文字が 1 である行を削除する必要があります。

出力は次のようになります。

(残りのテキストファイルは変更されません)

他のツールやテクニックが望ましい場合は、喜んでそれらについて学びたいと思います。

ありがとうございました。

regex deduplication

2013-01-14T16:15:54.680

問題タブ [deduplication]

Reference