4

私は、他の検索エンジンが現在行っているように Web アイテムのインデックスを作成し、ファイルのタイトル、URL、およびコンテンツのハッシュのみを保存する検索エンジンのアイデアを思いつきました。

このようにすれば、すでにアイテムを持っていて、それらがどこから来たのかわからない場合や、何かが出現したすべての場所を知りたい場合に、Web 上でアイテムを簡単に見つけることができます。

画像、実行可能ファイル、アーカイブなどの非テキスト アイテムにはより便利です。

すでに似たようなものがあるのだろうかと思っていましたか?

4

5 に答える 5

4

局所性鋭敏型ハッシュに関するウィキペディアのページを確認してください。MITの研究によってホストされている良いページもあります。

一般に、使用可能なフレーバーはいくつかあります。文字列のハッシュ(simhashなど)、セットまたは0/1機能(最小単位のハッシュなど)、および実際のベクトルです。

数値ハッシュの主なトリックは、これまでのところ、基本的に次元削減です。文字列の場合、アイデアは、マイナーな編集に直面しても堅牢な表現を考え出すことです。

私もこの分野で少し研究をしていますが、stackoverflowは初期の作業に適した場所ではないかもしれません。

于 2008-09-08T23:50:30.447 に答える
1

質問は完全一致ハッシュに焦点を当てているようです。これは、最近傍アプローチよりもよく理解しており、特にタグやその他のメタデータをそのように共有できる場合は特に価値があります。

@rjmunro が指摘しているように、ハッシュ ベースの検索は P2P の世界で人気のあるアイデアであり、Bitzi はこれをほとんど行っていましたが、閉鎖されており、Bitpedia (デジタル メディア エンサイクロペディア) はホストされていません。少なくとも、Archive.org ではまだ入手できます。

Bitzi は、Bitcollider (SourceForge.net)や、ファイルをハッシュで指定できる、コンテンツ ベースの識別子であるMagnet URI スキームなどのソフトウェアも作成しました。そのウィキペディアのページで説明されているように、さまざまなアプリケーションが、Magnet URI を介したさまざまなデータベースでの検索をサポートしています。

パスワード解読シーンでも同じ考え方が一般的です。たとえば、findmyhash - オンライン サービスを使用してハッシュを解読する Python スクリプトなどを参照してください。

さらに一歩進んで、コンテンツをハッシュで識別し、タグやその他のコンテンツに関するメタデータをさまざまな観点から提供するデータベースやオンライン リポジトリがあれば素晴らしいと思います。その後、音楽コレクションを元の状態 (無駄なバックアップ スペースと時間なし) のままにし、外部タグ データベースを介して自分でタグを付けたり、他のメタデータを追加したりできます。私のアプリケーションがタグを取得する方法を知っていれば、デスクトップなどから電話にタグを移動するためだけに大きなファイルを変更およびコピーする現在のシステムよりもはるかに優れているように思えます。

Metadata Independent Hashing for Media Identification & P2P Transfer Optimization (pdf)で関連するアイデアを参照してください。

于 2014-06-21T23:50:20.443 に答える
1

画像については、http://tineye.comがあり、それをワンアップして、同様の画像も見つけます。

于 2008-09-08T23:11:55.843 に答える
0

私があなたの提案を正しく理解しているなら、http://bitzi.com/はしばらくの間これを行っています。

于 2008-09-09T00:05:08.540 に答える
0

それは悪い考えではありません。ときどき、ファイルの出所を突き止めようとしているファイルに出くわすことがあります :) しかし、アイテムのソースをどのように追跡するのでしょうか? コンテンツは、Web ブラウザー、ダウンロード マネージャー、ネットワーク共有からコピーするなど、さまざまな方法で取得できます。

于 2008-09-08T23:18:37.510 に答える