問題タブ [deduplication]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - ハッシュベースのデータ重複排除
ユーザーの入力フォームからデータを取得するプロジェクトに取り組んでいます(ファイル処理なし)。重複を避けるために、(固定長または固定ブロック)または(可変長または可変ブロック)のいずれかを使用したいと考えています。
短い長さ (1 つのライナー) から長い長さ (ブログのようなもの) までのユーザーの入力データに対するより良いアプローチはどれですか?
md5 (固定長) または sha1 (可変長) を調べていますが、より良い実装はありますか?
mysql - SQL: 正規 ID への重複排除を行う最速の方法
私は興味深い SQL タスクを持っていますが、それを達成するための迅速な方法を誰かが知っているかどうかコミュニティに尋ねます。私は2つの遅い解決策を持っていますが、もっと速いものを見逃しているのではないかと思っています.
タスクは次のとおりです。
テーブル A 内のレコードのリストがあり、別のテーブル B の主キーを参照する列があり、これは外部キーのない MyISAM ですが、論理的に言えば、テーブル B の重複を排除し、テーブル A を更新したいと考えています。テーブル B から正規の重複排除された値を使用し、テーブル B から正規 ID レコードを除くすべてを削除します。
これは、小さな例で簡単に説明できます。テーブル A が person テーブルで、テーブル B が city テーブルだとします。また、city テーブルに重複していて重複排除が必要なレコードがあるとします。テーブル B の行 1 と行 2 の両方がロサンゼルスを参照しているとします。
次に person テーブルで、都市 ID が 2 の Los Angeles のすべての人物を更新して都市 ID を 1 にし、都市 ID が 2 の都市テーブルから重複値を削除します。
2 つだけでなく、重複した値を表すこのような行が多数ある可能性があります。現在、都市テーブルからすべての都市をクエリして、それらを等価クラスにグループ化し、各等価クラスをループし、この場合は正規バージョンを指定して、最初のものを選択し、更新と削除の 2 つのクエリを実行しています。
それで
どの id が正規のものであるかは気にしないので、より高速な方法があると思います。最初の id、in の id、またはランダムな id は関係ありません。この作業全体を 1 つの SQL ステートメントで行う方法を考えられますか? 最速の方法は何だと思いますか?
php - 複数ユーザーのメール重複排除
私は現在、ユーザー (メールアカウント) ごとにメールを重複排除しています。いくつかのヘッダー (メッセージ ID、件名、送信元、日付、送信先) の sha512 ハッシュを作成しています。その後、完全な電子メール (MIME 文字列) をファイルに保存し、Elasticsearch の「userID」フィールドと組み合わせてメタデータ (件名、from、to、cc ...) を挿入します。
これはユーザーごとにうまく機能していますが、グローバルに重複排除することでストレージ コストを大幅に削減できます。問題は、UserA と UserB の両方が同じメッセージを受信したときに、一部のヘッダーが異なる場合があることです。また、送信者自体のヘッダーも異なります。
これを作成する方法に関するヒントは大歓迎です。
PS 1 の解決策は、MIME ファイルをヘッダーなしで保存し、ヘッダーをユーザーごとに分けて保存することです。したがって、userA の完全な電子メールを取得するには、userA にリンクされたそのファイルのヘッダーと結合された MIME ファイルを取得します。しかし、この解決策は私にとって少し非効率的なように思えますか?
hadoop - HDFS を使用しない HBase
私は小さな研究プロジェクトを行っており、そのために HBase を使用することを考えています。ローカル ファイル システムを使用して HBase をセットアップできることをクイック スタート ガイドで読みました。私はこの男の論文を読んでいました: http://ro.uow.edu.au/cgi/viewcontent.cgi?article=9879&context=infopapers
HBase と SDFS (opendedup プロジェクトから) を使用して、ブロック レベルで重複排除されたファイル システムに高速にインデックスを作成できるかどうか疑問に思います。IE Dedup は、最初に hbase に挿入する一意のキーに基づいて、ローカル ファイル システム レベルでの重複排除のために SDFS の上に置きます。
これは機能しますか、それとも私はベースから外れていますか?