search - ハッシュで検索しますか？

Question

私は、他の検索エンジンが現在行っているように Web アイテムのインデックスを作成し、ファイルのタイトル、URL、およびコンテンツのハッシュのみを保存する検索エンジンのアイデアを思いつきました。

このようにすれば、すでにアイテムを持っていて、それらがどこから来たのかわからない場合や、何かが出現したすべての場所を知りたい場合に、Web 上でアイテムを簡単に見つけることができます。

画像、実行可能ファイル、アーカイブなどの非テキストアイテムにはより便利です。

すでに似たようなものがあるのだろうかと思っていましたか？

score 4 · Accepted Answer

局所性鋭敏型ハッシュに関するウィキペディアのページを確認してください。MITの研究によってホストされている良いページもあります。

一般に、使用可能なフレーバーはいくつかあります。文字列のハッシュ（simhashなど）、セットまたは0/1機能（最小単位のハッシュなど）、および実際のベクトルです。

数値ハッシュの主なトリックは、これまでのところ、基本的に次元削減です。文字列の場合、アイデアは、マイナーな編集に直面しても堅牢な表現を考え出すことです。

私もこの分野で少し研究をしていますが、stackoverflowは初期の作業に適した場所ではないかもしれません。

score 1 · Accepted Answer

質問は完全一致ハッシュに焦点を当てているようです。これは、最近傍アプローチよりもよく理解しており、特にタグやその他のメタデータをそのように共有できる場合は特に価値があります。

@rjmunro が指摘しているように、ハッシュベースの検索は P2P の世界で人気のあるアイデアであり、Bitzi はこれをほとんど行っていましたが、閉鎖されており、Bitpedia (デジタルメディアエンサイクロペディア) はホストされていません。少なくとも、Archive.org ではまだ入手できます。

Bitzi は、Bitcollider (SourceForge.net)や、ファイルをハッシュで指定できる、コンテンツベースの識別子であるMagnet URI スキームなどのソフトウェアも作成しました。そのウィキペディアのページで説明されているように、さまざまなアプリケーションが、Magnet URI を介したさまざまなデータベースでの検索をサポートしています。

パスワード解読シーンでも同じ考え方が一般的です。たとえば、findmyhash - オンラインサービスを使用してハッシュを解読する Python スクリプトなどを参照してください。

さらに一歩進んで、コンテンツをハッシュで識別し、タグやその他のコンテンツに関するメタデータをさまざまな観点から提供するデータベースやオンラインリポジトリがあれば素晴らしいと思います。その後、音楽コレクションを元の状態 (無駄なバックアップスペースと時間なし) のままにし、外部タグデータベースを介して自分でタグを付けたり、他のメタデータを追加したりできます。私のアプリケーションがタグを取得する方法を知っていれば、デスクトップなどから電話にタグを移動するためだけに大きなファイルを変更およびコピーする現在のシステムよりもはるかに優れているように思えます。

Metadata Independent Hashing for Media Identification & P2P Transfer Optimization (pdf)で関連するアイデアを参照してください。

score 1 · Accepted Answer

画像については、http://tineye.comがあり、それをワンアップして、同様の画像も見つけます。

score 0 · Accepted Answer

私があなたの提案を正しく理解しているなら、http：//bitzi.com/はしばらくの間これを行っています。

score 0 · Accepted Answer

それは悪い考えではありません。ときどき、ファイルの出所を突き止めようとしているファイルに出くわすことがあります :) しかし、アイテムのソースをどのように追跡するのでしょうか? コンテンツは、Web ブラウザー、ダウンロードマネージャー、ネットワーク共有からコピーするなど、さまざまな方法で取得できます。

search - ハッシュで検索しますか？

5 に答える 5

Related

Reference