問題タブ [deduplication]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - SQLServerで結合を使用してテーブルを削除する
私はこのDBAに不慣れで、いくつかのテーブルから重複を削除する必要があります。私はSQLServerで働いています。それらはすべて、最後の更新を追跡するLAST_UPDと呼ばれるフィールドを持っています。すべてのテーブルがTABLE1に結合され、各ユーザーはTABLE1.ALIAS_KEYによって識別されます。参加は以下の通りです。重複するすべての行をクリーンアップして、Table2の最新のエントリを保持する方法を考えています。助けてくれてありがとう!
c# - .pst ファイルの重複排除による一意の電子メールの検出
私には(どうやら)大きな仕事が迫っています。
複数のフォルダーの異なるアーカイブ ボリュームを調べる必要があります (数テラバイトのデータについて話している)。各フォルダー内には .pst ファイルがあります。これらのフォルダー (およびファイル) の一部は、まったく同じ (名前またはファイル内のデータ) である場合があります。一度に 2 つ以上のファイルを比較して (可能であれば)、重複が見つかるかどうかを確認したいと考えています。重複が見つかったら、それらを削除して元のメールを保持し、最終的に一意のメールをすべて抽出する必要があります。
重複を見つけることができるプログラムがあることは知っていますが、これらのファイルでどの引数を渡す必要があるかはわかりません。また、そのような大量のデータを処理できるかどうかもわかりません。C# か VB でプログラミングしたいと思っています。私はどこから始めるべきか途方に暮れています。助言がありますか??
元...
mapreduce - Deduplicaton / Couchdbでのマッチング?
couchdbにドキュメントがあります。スキーマは次のようになります。
2人のユーザーは、実際には同じ人物であると思います。
- メールまたは
- personal_blog_urlまたは
- 電話
同一である。
3つのビューを作成しました。これは、基本的にemail / blog_url / telephoneをuserIdsにマップし、userIdsを同じキーの下のグループに結合します。
私の質問:
- 3つの異なるビューの結果を、重複を含まない最終的なユーザーテーブル/ビューにマージするにはどうすればよいですか?
- または、couchdbでそのような重複排除を行うのが良い習慣かどうか。
- または、ソファで重複排除を行うための良い方法は何でしょうか?
ps。最終ビューでは、すべての重複について、最小のuserIdのみを保持するとします。
ありがとう。
sql - SQLサーバーでインポートされたレコードの重複排除
次のT_SQLストアドプロシージャがあります。これは、バックエンド分析スイートに新しくインポートされたレコードですべてのプロセスを実行するために必要な合計時間の50%を現在占めています。残念ながら、このデータは毎回インポートする必要があり、DBサイズが大きくなるにつれてボトルネックが発生します。
基本的に、レコード内のすべての重複を識別し、そのうちの1つだけを保持しようとしています。
クエリ実行プランから確認できるすべてのインデックスを追加しましたが、他の人と何とかして行ったように、SP全体を更新して別の方法で実行できる可能性があります。
sql - 私が持っている情報で重複排除するための最良の方法は何ですか?
重複ファイル(.pst)を見つけて削除し、最終的に一意の電子メールを取得する必要があります。現在、Powershellを使用して、フォルダーを再帰的に調べて.pstファイルのみを検索し、特定のメタデータを.csvファイルにエクスポートしています。比較(名前、ファイルの日付など)を行うために.csvをSQLにインポートすることをお勧めします。その後、私は立ち往生しています。
必要なファイルを取得して残りを削除するには、どの言語またはプログラムが最適ですか?私はVB.Net(C#を試すことができます)とPowerShellでかなり働いています。
powershell - Powershell: アレイの重複排除
オブジェクトに基づいてエントリを重複排除する必要があるパイプ区切りのフラット ファイルがあります。具体的には、ファイルの一部は次のとおりです。
最初のフィールドは ID で、最後のフィールドはタイムスタンプです。ID ごとに最新のタイムスタンプ エントリのみが保持されるように、エントリの重複を排除したいと考えています。したがって、必要な出力は次のようになります。
ファイルを読み取り、エントリを個別のオブジェクト名で配列に保存してから、試しました
日付がソートされると、ここで -unique として使用される get-unique コマンドレットが、ソートされた配列内の重複したエントリの最初または最後のいずれかを選択することを期待して、降順または昇順で日付をソートしますが、そうではなく、ランダムに 1 つのエントリを選択します。
get-unique コマンドレットがどのように機能するかを理解するのを手伝ってください。
mysql - 重複排除 SQL を使用して数百万のレコードを挿入する
これは理論的なシナリオであり、大規模な SQL データベースに関しては、私は素人ではありません...
600 万のレコード (テーブル 1 からテーブル 2) から既存のデータベースに約 200 万のレコードを挿入するにはどうすればよいでしょうか (テーブル 1 からテーブル 2 へ)。すでに存在する)?
単純にサイト 1 からレコードを取得してサイト 2 に追加する方法は理解できますが、データの重複を引き起こさずにこれを大規模に行うにはどうすればよいでしょうか? 私はそれが苦労したことを発見したので、どんな読書源も私にとって役立つ以上のものです.
例: 表 1: site1Subscribers
site1Subscribers(subID、subName、subEmail、subDob、subRegDate、subEmailListNum、subThirdParties)
表 2: site2Subscribers
site2Subscribers(subID、subName、subEmail、subDob、subRegDate、subEmailListNum、subThirdParties)
search - ElasticSearch で重複データを確認するにはどうすればよいですか?
一部のドキュメントを保存するときは、存在しないものを保存し、残りを無視する必要があります (これは、ドキュメントの ID が既に存在するかどうかを確認するなど、アプリケーション レベルで行う必要がありますか?)
regex - 正規表現による冗長情報の削除
次のタスクに正規表現 (.NET) を使用したいと考えています。
テキスト ファイルには、次の行が含まれています。
正規表現は、8 番目の文字 (0 対 1) を除いて行が同一であるケースを識別し、8 番目の文字が 1 である行を削除する必要があります。
出力は次のようになります。
(残りのテキスト ファイルは変更されません)
他のツールやテクニックが望ましい場合は、喜んでそれらについて学びたいと思います。
ありがとうございました。
php - 多次元配列の重複解除
重複排除する必要があるかなり単純な多次元配列があります。また、値を持つキーをすべて削除する必要があるため、以下のコードでは、city/Paris の 2 番目のターゲット/値 (配列 3) を保持し、6 番目の配列も削除する必要があります。
私はこれを行うことができます:
- 配列のフラット化
- ターゲット/値を新しいキー/値として割り当てる (これにより、重複がある場合、後の値が自動的に上書きされます)
- の値を持つすべてのキーを削除します。
- アレイを再構築する
これは間違っているように感じます。array_walk_recursive() を使用したより良い解決策があると確信しています。これはおそらく元のキーを保持し、より洗練された解決策になるからです。
これは私の現在のコードです: