“deduplication”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

149 参照

php - 多次元配列の重複解除

重複排除する必要があるかなり単純な多次元配列があります。また、値を持つキーをすべて削除する必要があるため、以下のコードでは、city/Paris の 2 番目のターゲット/値 (配列 3) を保持し、6 番目の配列も削除する必要があります。

私はこれを行うことができます：

配列のフラット化
ターゲット/値を新しいキー/値として割り当てる (これにより、重複がある場合、後の値が自動的に上書きされます)
の値を持つすべてのキーを削除します。
アレイを再構築する

これは間違っているように感じます。array_walk_recursive() を使用したより良い解決策があると確信しています。これはおそらく元のキーを保持し、より洗練された解決策になるからです。

これは私の現在のコードです：

2013-01-29T11:24:05.773

0 投票する

2 に答える

138 参照

information-extraction - 複数のWebサイトから抽出された情報の集約と重複排除

複数のWebサイトから抽出したレストランのタイミングと住所情報のデータベースの構築に取り組んでいます。同じレストランの情報が複数のWebサイトに存在する可能性があるため。したがって、データベースには、ほぼ重複するコピーがいくつかあります。

レストランの数が多いので、たとえば100000です。次に、新しいエントリごとに、100000 ^ 2の順序で比較して、ほぼ同じ名前のレストラン情報がすでに存在するかどうかを確認する必要があります。ですから、それよりも優れた効率的なアプローチがあるかどうかを尋ねています。ありがとうございました。

information-extraction deduplication

2013-01-30T10:08:59.483

0 投票する

2 に答える

2581 参照

aggregation - アドレス間の類似性を見つける

2つの住所の類似性を見つけるために、次のコードを作成しました

しかし、このアプローチでは、多くの誤検知を見つけています。ここでは、しきい値を 0.5 としています。つまり、類似度スコアが 0.5 を超えている場合、類似している可能性があります。しかし、多くの異なる住所の類似性スコアは約 0.7 程度であり、類似性スコアが約 0.6 程度に近い多くの本当に類似したペアを見逃す可能性があるため、しきい値を増やすだけでは問題は解決しません。

たとえば、次の 2 つの住所 9/18, Ekdalia Road, Gariahat, Kolkata と 1/3, City Mall, Jessore Road, Near Dak Banglow More, Barasat, Kolkata - 700124 の類似性 は 0.6488 となりますが、まったく同じではありません。 .

だから私は誰かが同じことをするためのより良いアプローチを提案できるかどうか尋ねています. ありがとうございました。

aggregation similarity deduplication

2013-02-13T05:02:28.317

0 投票する

2 に答える

1051 参照

filesystems - Opendedup はストレージ容量を減少させません

私はOpendedupをテストしていますが、正しく動作しているように見えますが、重複排除されたパーティションに入れたファイルの実際のサイズは、このパーティションが実際に取るサイズとほぼ同じです。

構成ファイルでは、重複排除がアクティブ化されており (dedup-files="true")、デフォルトでアクティブ化されていることがドキュメントに示されていますが、重複バイトは 130ko しかありません。

データは動画ファイルなので、ストレージ容量を増やすことができると思います。

編集

ゼロで埋められたファイルでテストしたところ、ゲインはより良くなりました: 1Mo で 262ko です。しかし、このファイルを gzip すると 10ko になるので、より良い圧縮率を得るオプションを付けられるかどうか知りたいです。

filesystems deduplication

2013-03-12T21:49:37.580

0 投票する

2 に答える

3258 参照

google-apps-script - 2列の基準に基づいて重複する行を削除するGoogleScript

カレンダーからイベントの詳細を取得してスプレッドシートの列AとBに追加し、重複するイベントを削除して、日付に基づいて並べ替えるスクリプトを使用しています。私の希望は、スタッフにこれらのイベントに関する追加データを列C、Dなどに追加してもらうことです。

これは正常に機能しているようですが、C、D列に情報が追加されると、インポートされているコンテンツだけでなく行全体を比較しているため、スクリプトの重複排除機能は機能しなくなります。

行が重複していて削除する必要があるかどうかを判断するときに、列AとBのみをチェックするように、以下の重複排除スクリプトを調整する方法はありますか？

この記事のバリエーションセクションにある以下のコード（現在コメントアウトされている）調整を使用しようとしました：https ：//developers.google.com/apps-script/articles/removing_duplicates-それでも機能しないようです。

助けてくれてありがとう

スクリプト：

google-apps-script google-sheets deduplication

2013-03-20T13:21:30.470

0 投票する

1 に答える

1847 参照

hive - HiveQL を使用した重複除去

フィールド 'a'(int)、'b'(string)、'c'(bigint)、'd'(bigint)、'e'(string) を持つハイブテーブルがあります。
次のようなデータがあります。

テーブルはキー 'b' でソートされます。
ここで、以下のような出力が必要です。

キー「a」で重複排除されますが、最後（最新）の「b」は保持されます。

Hive クエリ (HiveQL) を使用することは可能ですか?

hive hiveql deduplication

2013-04-16T12:17:50.163

0 投票する

3 に答える

1467 参照

mysql - mysql テーブルからすべての重複を削除します

製品 ID と、それらが与えられた回数 (1 つ星、2 つ星、3 つ星、4 つ星、および 5 つ星) と、その製品の平均評価を示す表があります。このテーブルには重複する行がいくつか表示されています。ProductId 1196585 など、完全に重複している行を削除するにはどうすればよいですか。テーブルの例を以下に示します。

明確にするために、テーブルを変更したいので、最初にコピーを作成します。

mysql deduplication

2013-05-24T08:27:10.437

0 投票する

3 に答える

156 参照

python - Python remove duplicate cases that are in inverted matrix

I have a list that looks like this:

As you can see there are cases that are duplicated. e.g.

is the same as (but inverted)

What is the best way (with some efficiency but can live without it if need be) to remove the duplicates from this list? So in this case I would keep [340853571828469762, 340854579195432961], but remove the [340854579195432961, 340853571828469762].

python deduplication

2013-06-02T16:32:26.130

問題タブ [deduplication]

Reference