“duplicate-removal”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

769 参照

php - MySQLは重複する逆の値を削除します

MySQLMyISAMテーブルがあります。

テーブルfriends（id、friend_id）：

1、5

5、1

2、6

6、2

3、7

リバースレコードを削除する方法は？レコード値«1、5»の場合、値«5、1»のレコードが存在する場合、«5、1»を削除する必要があります。

助けてくれてありがとう！

2011-03-25T22:26:49.213

0 投票する

5 に答える

10295 参照

sql-server-2008 - SSISで個別のレコードを抽出する

*.csvファイルからSQL2008DBにデータをインポートするSSISパッケージを作成しています。問題は、ファイルの1つにcsvファイル内の重複レコードが含まれており、そのソースから個別の値のみを抽出したいということです。下の画像をご覧ください。

残念ながら、生成されたファイルは私の管理下にはなく、サードパーティが所有しているため、生成方法を変更できませんでした。

ルックアップコンポーネントを使用しました。ただし、既存のデータを受信データと照合するだけです。受信データの重複レコードはチェックされません。

sql-server-2008 ssis duplicate-removal

2011-03-28T19:28:17.263

0 投票する

3 に答える

1386 参照

mysql - SQLで完全に同じではないが類似している重複する文字列値を見つける方法

列名company_name（string）のテーブルがあります。この列の重複する値を見つける必要があります。完全に同じではないため、distinctまたはgroupbyを使用できません。例えば：

SQLでそのようなエントリを見つけるにはどうすればよいですか、またはこのためのrubyライブラリはありますか？

mysql sql ruby duplicate-data duplicate-removal

2011-04-01T10:23:20.083

0 投票する

2 に答える

149 参照

language-agnostic - 連続した同一の重複ファイルを削除する

Windows Server 2003 R2 Enterprise を実行しているサーバーがあり、ディレクトリごとに 1 KB のテキストファイルが 50,000 ～ 250,000 個あります。ファイル名は連続しており (MLLP000001.rcv、MLLP000002.rcv など)、同一のファイルは連続しています。後続のファイルが異なると、別の同一のファイルを受け取ることはないと予想できます。

次のことを行うスクリプトが必要ですが、どこから始めればよいかわかりません。

DOS バッチスクリプトを試してみましたが、これは非常に面倒です。内側のループから抜け出すことができません。また、外側のループにはディレクトリ内のファイルのリストがあるため、ループ自体が失敗しますが、そのリストは常に変化しています。私の知る限り、VBScript にはハッシュ関数がありません。

language-agnostic scripting file duplicate-removal windows-scripting

2011-04-06T16:10:25.950

0 投票する

3 に答える

19138 参照

c# - LINQを使用して複数のプロパティ間で重複を検索する

次の定義を持つクラスがあるとします。

MyTestClass []配列で重複する値を見つけるにはどうすればよいですか？

例えば、

ValueAとValueBの両方が1である2つのMyTestClassオブジェクトがあるため、重複が含まれています

c#.net linq duplicate-removal

2011-04-08T14:29:48.713

0 投票する

4 に答える

4781 参照

c# - ms access データベースから重複行を削除する方法 (C#)

私はさまざまなサイトやコードを調べてきましたが、私の悲惨さを終わらせるものは何もないようです. 特定の列の重複を見つけて削除するのに役立つか、基になるデータベース自体ではなく、データテーブルからのみ削除します。mdb ファイルのテーブル "table1" から重複する行を削除したいと考えています。

私の要件をより明確にするために：

テーブル内のどの列にも主キーが設定されていません (そして、余裕がありません)
重複する行を 1 つだけ残してすべて削除したい! (順番は関係ありません)
データベース自体を更新する前に、そのような行が存在するかどうかを最初に確認するよりも、データベースから重複を削除することを好みます（それが最後の手段である場合は、そうではありませんが、それは大歓迎です）
重複行とは、明確でない行を意味します。たとえば、次の例では、3 行目と 5 行目だけが重複しています。そして、それらのいずれかを削除したいと思います。
/li>

重複行は、次のようにボタンをクリックしてデータベースから削除する必要があります

前もって感謝します。はい、私は初心者です..

c#duplicate-data duplicate-removal delete-row duplicates

2011-04-08T19:40:56.560

0 投票する

3 に答える

138 参照

c# - メッセージが受信トレイ内に複数回表示される

Google Mail スタイルに近い PM システムを使用しています。つまり、メッセージは会話にグループ化されます。ユーザーがメッセージを受信すると、受信トレイに表示されます。また、このユーザーが誰かにメッセージを送信し、その人が返信を返すと、このメッセージも受信トレイに表示されます。

一部のメッセージは両方のクエリで取得され、最終的に 1 つのリストにグループ化されます。リスト C# から重複を削除する際に Jon Skeet が行ったことを実行して、重複を削除しようとしましたが、それでも重複が発生し続けます。これが私のコードです：

更新しました：

// MessagingService の内部 public IList GetThreads(User user) { //返信ではないすべてのメッセージを取得します。var tmp = _repository.GetMany(c => c.DisplayInInbox.Equals(true) && c.ParentId.Equals(null)); var スレッド = (GetReplies(user, c.Id).Count() > 0 を選択する tmp の c から c).ToList(); var threadsByUser = user.ReceivedMessages.Where(m => m.DisplayInInbox.Equals(true) && m.ParentId.Equals(null)).ToList(); スレッド.AddRange(threadsByUser); スレッド.Distinct().ToList(); スレッドを返します。}

ここで何か間違ったことをしていますか？

c#list merge duplicates duplicate-removal

2011-04-26T11:13:36.610

0 投票する

1 に答える

151 参照

java - 制約のある多対多のデータセットで重複を効率的に見つけますか？

私たちのウェブアプリがUIからより限定的に実行できるものの一括操作バージョンを作成する必要があります。必要な操作は、オブジェクトをカテゴリに割り当てることです。カテゴリには複数のオブジェクトを含めることができますが、特定のオブジェクトは1つのカテゴリにのみ含めることができます。

タスクのワークフローは次のとおりです。

1）ブラウザを使用して、次の形式のファイルがアップロードされます。

ファイルにはおそらく数十から数百行が含まれますが、間違いなく数千行になる可能性があります。

理想的な世界では、特定のオブジェクトIDはファイル内で1回だけ発生します（オブジェクトは1つのカテゴリにしか割り当てることができないという事実を反映しています）が、ファイルは制御外で作成されるため、実際に真であり、処理される保証はありません。その可能性に対処する必要があります。

2）サーバーはファイルを受信し、解析し、前処理して、次のようなページを表示します。

3）ユーザーがYesボタンをクリックすると、サーバーが実際に作業を行います。

手順（2）と（3）の両方でファイルを解析したくないので、（2）の一部として、リクエスト間で存続し、データの有用な表現を保持するコンテナを構築する必要があります。「プレビュー」ページに入力するデータを簡単に提供して、実際の作業を効率的に実行できるようにします。（明らかにセッションはありますが、通常、メモリ内のセッション状態はほとんど保持されません。）

既存のものがあります

UIを介して割り当てが行われるときに使用される関数。単純な割り当てに加えて他の多くのビジネスロジックを実行し、この一括割り当てが実行されるときに同じビジネスロジックを実行する必要があるため、一括操作でもこのAPIを使用することが非常に望ましいです。

最初は、ファイルが特定のオブジェクトに対して「違法に」複数のカテゴリを指定した場合、ファイルが関連付けられたカテゴリの1つにオブジェクトを不意に割り当てても問題ありませんでした。

そのため、最初は、ステップ（2）でファイルを調べながら、ビルドしてクロスリクエストコンテナーに入れ Map<CategoryId, Set<ObjectId>>（具体的にはHashMap、すばやく検索して挿入するために）、作業を行うときだと思っていました。マップ上で繰り返すだけで、それぞれCategoryIdに関連付けられたものを引き出して、Set<ObjectId>に渡すことができますassignObjectsToCategory()。

ただし、重複ObjectIdの処理方法に関する要件が変更されました。そして、それらは次のように処理されます。

がファイルObjectIdに複数回出現し、すべての時間が同じに関連付けられているCategoryId場合は、オブジェクトをそのカテゴリに割り当てます。
がファイルObjectIdに複数回表示され、異なるに関連付けられてCategoryIdいる場合は、エラーと見なし、「プレビュー」ページにそのことを記載してください。

これは、ファイルから読み取ったばかりのファイルがすでにに関連付けられていることMap<CategoryId, Set<ObjectId>>を検出するための適切な方法を提供しないため、私の戦略を台無しにしているようです。ObjectIdCategoryId

だから私の質問は、これらの重複を最も効率的に検出して追跡する方法ObjectIdですか？

頭に浮かんだのは、「順方向」と「逆方向」の両方のマップを使用することです。

次に、各(ObjectId, CategoryId)ペアが読み込まれると、両方のマップに配置されます。ファイルが完全に読み込まれると、次のことができます。

このループが終了objectsByCategoryすると、「違法な」重複は含まれなくなり、illegalDuplicates必要に応じて報告されるすべての「違法な」重複が含まれます。次に、繰り返して、各カテゴリobjectsByCategoryのを取得し、呼び出して割り当てを行うことができます。Set<ObjectId>assignObjectsToCategory()

しかし、これはうまくいくと思いますが、特に入力ファイルが巨大な場合は、データを2回保存することを心配しています。また、効率性について何かが欠けているのではないかと心配しています。これは非常にゆっくりと進みます。

ダブルメモリを使用しないが、それでも迅速に実行できるこれを行う方法はありますか？ダブルメモリを使用しても、予想よりも実行速度が大幅に低下するものがありませんか？

java data-structures duplicate-removal

2011-04-28T02:37:41.173

0 投票する

1 に答える

934 参照

sql - 文字列の長さの基準に基づいて重複を削除する

バックグラウンド

名前の長さに基づいて、重複する都市名を一時テーブルから削除します。

問題

次のクエリは、350,000 行を返します。

サンプルデータ：

次の行を保持して、すべての重複を削除したいと思います。

人口は null ではありません。と
名前は重複の中で最も長い ( max(tc.name_lowercase)); と
これらの条件のいずれも満たされない場合は、保持しmax(tc.id)ます。

指定されたデータセットから、残りの行は次のようになります。

質問

問題の基準を満たす緯度/経度の値が重複している行だけをどのように選択しますか?

ありがとうございました！

sql postgresql duplicate-removal

2011-04-30T04:09:59.477

問題タブ [duplicate-removal]

バックグラウンド

問題

質問

Reference