“deduplication”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

459 参照

python - Python 2.7: サフィックスを追加してリストを重複除去する

この問題について正しく考えているかどうかはわかりません。重複のあるリストを取得し、反復サフィックスを追加してリストを「重複除去」する関数を書きたいと思います。

例えば：

復帰を目指して：

私の本能は、次のように、while ステートメントでリストを反復処理しながら pop 関数を使用することでした。

しかし：

['リンゴ'、'チェリー'、'オレンジ']

ポインタに感謝します。

2013-06-24T20:08:54.863

0 投票する

1 に答える

1021 参照

python - タプル重複排除の Python リスト

タプルの異なるリストのセットを次々と重複排除しようとしています。リストは次のようになります。

私は実行しています（例：リストAの場合）：

そして私は得るでしょう：

ただし、B について繰り返すと、最初のタプルではなく 2 番目のタプルが選択される可能性があります。

理想的には、B は次のようになります。

A、B などのフロートの連結を取得するためにそれらを使用するため、文字列のシーケンスに対してそれらが同じである必要があります。重複排除リストの選択アプローチを一定に保つ方法があるかどうかを知りたいです。ありがとう！

python list tuples deduplication

2013-08-07T21:06:51.387

0 投票する

3 に答える

1439 参照

mysql - 多数のフィールドの値を比較するデータベースレコードの重複除去

だから私はデータベーステーブルのいくつかの電話レコードをきれいにしようとしています.

以下を使用して、2 つのフィールドで完全一致を検索する方法を見つけました。

うわー、素晴らしい。

さらに拡張して、多数のフィールドを調べて、3 つの電話フィールドのうちの 1 つの電話番号が重複しているかどうかを確認します。

general mobileだから私は3つのフィールド（、general phone、）をチェックしたいbusiness phone。

1. それらが空でないことを確認する ('') 2. それらのいずれかのデータ (数値) が、テーブル内の他の 2 つの電話フィールドに表示されるかどうかを確認します。

そのため、制限された SQL を限界を超えてプッシュすると、3 つの空の電話フィールドを持つレコードと、電話番号が重複していないレコードを返すように見える次のようになりました。

明らかに私の論理には欠陥があり、誰かが私を正しい方向に向けたり、同情したりできるかどうか疑問に思いました...

どうもありがとう

mysql sql deduplication

2013-08-15T09:49:30.150

0 投票する

0 に答える

100 参照

mysql - LOAD DATA INFILE またはその他のソリューションを使用した数百万行の重複排除

全てにおいて良い日。このトピックが頻繁に出てくることは承知しており、重複して申し訳ありませんが、MYSQL の達人が必要です。

ここに掲載されているいくつかの解決策を試しましたが、役に立ちませんでした。ソリューションに時間がかかりすぎるか、締め切りまでにこのタスクを完了するための知識ベースがなく、ガイダンスが必要な可能性が高いです。理にかなっていると思われる最も一般的な答えは、一時テーブルから LOAD DATA INFILE を使用することですが、ファイルを分割してチャンクに分割し、ループスクリプトを使用する必要がありますか? 私はこれが完全な例と説明のためにここにいる多くの初心者を助けることを知っています. 私の切り株は、IGNORE または REPLACE でパラメーターを使用することから来ている可能性があります。以下に 2 つのテーブルを示します。

Table1 には 2,700 万の行があり、次のように複数の病気を持つ個人に基づいて重複しています。

Table2 には 300 万行と 2 つの null 列がありますが、病気による内部重複はありません。

最初、最後、および郵便番号に基づいて複製しようとしています。これが役立つ場合は、これをより速く処理するために少しデータを失います。このご支援に心より感謝申し上げます。

mysql sql deduplication

2013-08-16T14:53:32.053

0 投票する

2 に答える

52 参照

database - スペース効率の良いマーケティングメールストレージ

私は、それを介して送信されるすべての電子メールに対して（とりわけ）「ブラウザで表示」機能を自動的に提供するメールゲートウェイに取り組んでいます。これにより、簡単にアクセスできるように、すべてのメールをどこかに保存する必要が生じます。期間は限られていますが、メッセージを保存する前に gzip を適用しても、最近のメッセージを保存するだけで最大 500 GB のストレージが必要です。

すべての電子メールは (いくつかの個人的な変数を除いて) ほとんど同じであるため、より効率的な保存方法があるかどうかを考えていました。複数のレコードにわたるものを重複排除するもの、またはそのようなもの。それに関する提案はありますか？

別の方法として、テンプレートを保存し、送信された各メールの変数のみを保存することもできますが、このプロセスは送信者に対して透過的であるべきであるため、そうしたくありません。これは、この情報にアクセスできないことを意味し、事後に推測する必要があります。

database email storage deduplication

2013-09-04T17:23:36.767

0 投票する

2 に答える

167 参照

mysql - 同じ2つのテーブルへの2つのテーブルのmysql効率的な結合

この構造に単純化できる 2 つのテーブルがあります。

表1：

表 2:

説明を table1 に結合し、説明でフィルターして、説明 = abc の行のみを取得し、「重複」行を除外します。ここで、2 つの行が同じ値を持ち、日付が 1 から 6 分以内の場合は重複します。別。私の目的の出力テーブルは以下のとおりです (abc が目的の説明フィルターであると仮定します)。

私が思いついたクエリは次のとおりです。

残念ながら、このクエリは私のデータセットで実行するのに 1 分以上かかり、結果が返されません (結果があるはずですが)。このクエリを実行するより効率的な方法はありますか? 派生テーブルに名前を付けて、後で同じクエリで参照する方法はありますか? また、クエリが結果を返さないのはなぜですか?

助けてくれてありがとう！

編集:タイムスタンプが近いいくつかのサンプルの最初のものを保持したいと思います。

テーブル 1 には 610 万行、テーブル 2 には 30K の行があるため、テーブル 2 には "abc" という説明の行が 1 つしかないことがわかります。これは、事前に descr_id をクエリしてから、その id を使用して大きなクエリで table2 をまったく結合しないようにすることで、はるかに効率的にできることを意味します。ただし、私の table2 が上記のように設定されている場合 (これはデータベース設計が不十分であることは認めます)、そのようなクエリを実行する良い方法は何ですか?

mysql performance join time-series deduplication

2013-09-25T17:15:54.283

問題タブ [deduplication]

python - Python 2.7: サフィックスを追加してリストを重複除去する

python - タプル重複排除の Python リスト

mysql - 多数のフィールドの値を比較するデータベース レコードの重複除去

mysql - LOAD DATA INFILE またはその他のソリューションを使用した数百万行の重複排除

database - スペース効率の良いマーケティング メール ストレージ

mysql - 同じ2つのテーブルへの2つのテーブルのmysql効率的な結合

Reference

mysql - 多数のフィールドの値を比較するデータベースレコードの重複除去

database - スペース効率の良いマーケティングメールストレージ