問題タブ [deduplication]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

139 問題

0 投票する

1 に答える

25 参照

java - ハッシュベースのデータ重複排除

ユーザーの入力フォームからデータを取得するプロジェクトに取り組んでいます（ファイル処理なし）。重複を避けるために、（固定長または固定ブロック）または（可変長または可変ブロック）のいずれかを使用したいと考えています。

短い長さ (1 つのライナー) から長い長さ (ブログのようなもの) までのユーザーの入力データに対するより良いアプローチはどれですか?
md5 (固定長) または sha1 (可変長) を調べていますが、より良い実装はありますか?

java deduplication

2014-03-13T20:44:00.770

0 投票する

0 に答える

227 参照

mysql - SQL: 正規 ID への重複排除を行う最速の方法

私は興味深い SQL タスクを持っていますが、それを達成するための迅速な方法を誰かが知っているかどうかコミュニティに尋ねます。私は2つの遅い解決策を持っていますが、もっと速いものを見逃しているのではないかと思っています.

タスクは次のとおりです。

テーブル A 内のレコードのリストがあり、別のテーブル B の主キーを参照する列があり、これは外部キーのない MyISAM ですが、論理的に言えば、テーブル B の重複を排除し、テーブル A を更新したいと考えています。テーブル B から正規の重複排除された値を使用し、テーブル B から正規 ID レコードを除くすべてを削除します。

これは、小さな例で簡単に説明できます。テーブル A が person テーブルで、テーブル B が city テーブルだとします。また、city テーブルに重複していて重複排除が必要なレコードがあるとします。テーブル B の行 1 と行 2 の両方がロサンゼルスを参照しているとします。

次に person テーブルで、都市 ID が 2 の Los Angeles のすべての人物を更新して都市 ID を 1 にし、都市 ID が 2 の都市テーブルから重複値を削除します。

2 つだけでなく、重複した値を表すこのような行が多数ある可能性があります。現在、都市テーブルからすべての都市をクエリして、それらを等価クラスにグループ化し、各等価クラスをループし、この場合は正規バージョンを指定して、最初のものを選択し、更新と削除の 2 つのクエリを実行しています。

それで

どの id が正規のものであるかは気にしないので、より高速な方法があると思います。最初の id、in の id、またはランダムな id は関係ありません。この作業全体を 1 つの SQL ステートメントで行う方法を考えられますか? 最速の方法は何だと思いますか?

2014-03-14T19:04:29.777

0 投票する

1 に答える

85 参照

php - 複数ユーザーのメール重複排除

私は現在、ユーザー (メールアカウント) ごとにメールを重複排除しています。いくつかのヘッダー (メッセージ ID、件名、送信元、日付、送信先) の sha512 ハッシュを作成しています。その後、完全な電子メール (MIME 文字列) をファイルに保存し、Elasticsearch の「userID」フィールドと組み合わせてメタデータ (件名、from、to、cc ...) を挿入します。

これはユーザーごとにうまく機能していますが、グローバルに重複排除することでストレージコストを大幅に削減できます。問題は、UserA と UserB の両方が同じメッセージを受信したときに、一部のヘッダーが異なる場合があることです。また、送信者自体のヘッダーも異なります。

これを作成する方法に関するヒントは大歓迎です。

PS 1 の解決策は、MIME ファイルをヘッダーなしで保存し、ヘッダーをユーザーごとに分けて保存することです。したがって、userA の完全な電子メールを取得するには、userA にリンクされたそのファイルのヘッダーと結合された MIME ファイルを取得します。しかし、この解決策は私にとって少し非効率的なように思えますか?

php email elasticsearch mime deduplication

2014-03-15T00:14:24.903

0 投票する

0 に答える

227 参照

hadoop - HDFS を使用しない HBase

私は小さな研究プロジェクトを行っており、そのために HBase を使用することを考えています。ローカルファイルシステムを使用して HBase をセットアップできることをクイックスタートガイドで読みました。私はこの男の論文を読んでいました: http://ro.uow.edu.au/cgi/viewcontent.cgi?article=9879&context=infopapers

HBase と SDFS (opendedup プロジェクトから) を使用して、ブロックレベルで重複排除されたファイルシステムに高速にインデックスを作成できるかどうか疑問に思います。IE Dedup は、最初に hbase に挿入する一意のキーに基づいて、ローカルファイルシステムレベルでの重複排除のために SDFS の上に置きます。

これは機能しますか、それとも私はベースから外れていますか?

hadoop hbase hdfs deduplication

2014-04-17T15:43:19.333

1 2 3 4 5 6 7 8 9 10

問題タブ [deduplication]

java - ハッシュベースのデータ重複排除

mysql - SQL: 正規 ID への重複排除を行う最速の方法

php - 複数ユーザーのメール重複排除

hadoop - HDFS を使用しない HBase

Reference