python - 計算コストの低いPythonハッシュアルゴリズムを使用したリツイートの検出

Question

特定のツイートのRTを検出できるようにするために、フォーマットされた各ツイートのハッシュをデータベースに保存する予定です。

どのハッシュアルゴリズムを使用する必要がありますか。もちろん、不可解なものは必須ではありません。データを何かとして保存するための最小限の方法であり、同じ場合は効率的な方法で比較できます。

これに対する私の最初の試みは、md5ハッシュを使用することでした。しかし、セキュリティが必要ないため、はるかに効率的なハッシュアルゴリズムが存在する可能性があると考えました。

score 6 · Accepted Answer

本当にハッシュする必要がありますか？Twitterメッセージは十分に短い（そしてディスク容量は十分に安い）ので、メッセージをハッシュするためにクロックサイクルを消費するよりも、メッセージ全体を保存する方がよい場合があります。

score 4 · Accepted Answer

私は Python に詳しくありません (申し訳ありませんが、Ruby の人がここに入力しています) が、いくつかのことを試すことができます。

前提: 時間の経過とともに数十万件のツイートを保存する可能性が高いため、1 つのハッシュをテーブル内の「すべてのレコード」と比較するのは非効率的です。また、RT は必ずしも元のツイートのカーボンコピーではありません。結局のところ、元の作者の名前が通常含まれており、140 文字の制限の一部を占めています。それでは、「ダム」ハッシュよりも正確に一致するソリューションを使用できるでしょうか?

タグ付けとインデックス作成

標準的な方法で、メッセージのコンポーネント部分にタグを付けてインデックスを付けます。これには、ハッシュされた #....、アットマーク @.... および URL 文字列を「タグ」として扱うことが含まれます。ノイズワードと句読点を削除した後、残りの単語もタグとして扱うことができます。
高速検索

データベースは、複数のグループメンバーシップを非常に迅速に見つけるのが苦手です (Mysql または Postgresql を使用していると仮定しますが、これはひどいものです)。代わりに、 Sphinx Searchなどのフリーテキストエンジンのいずれかを試してください。複数のグループメンバーシップの解決 (つまり、キーワードが存在するかどうかのチェック) が非常に高速です。

Sphinx などを使用して、抽出したすべての「タグ」を検索します。これはおそらく、「元の可能性のあるツイート」の小さな結果セットを返します。次に、類似性マッチングアルゴリズムを使用してそれらを 1 つずつ比較します (ここでは Python http://code.google.com/p/pylevenshtein/の 1 つです) 。

テキストマイニングの世界へようこそ。

幸運を！

score 2 · Accepted Answer

ハッシュをまったく使用しないという Chris のコメントに同意します (データベースエンジンが 140 文字のフィールドを効率的にインデックス化できることを願っています)。

ハッシュを使用する場合は、MD5 も最初の選択肢 (16 バイト) で、次に SHA-1 (20 バイト) が続きます。

何をするにしても、文字の合計を使用しないでください。より多くの衝突が発生する関数をすぐに思いつくことはできません (すべてのアナグラムは同じようにハッシュされます)、さらに低速です!

$ python -m timeit -s 'from hashlib import md5' 'd=md5("There once was a man named Michael Finnegan.").digest()'
100000 loops, best of 3: 2.47 usec per loop
$ python -m timeit 'd=sum(ord(c) for c in "There once was a man named Michael Finnegan.")'
100000 loops, best of 3: 13.9 usec per loop

score 2 · Accepted Answer

ここにはいくつかの問題があります。まず、RT は常に同一であるとは限りません。コメントを追加する人もいます。トラッキングのために URL を変更する人もいます。他の人は、RTしている人を追加します（発信者である場合とそうでない場合があります）。

したがって、ツイートをハッシュ化する場合は、ツイートの本質にまで煮詰めて、それのみをハッシュ化する必要があります。幸運を。

上で、32 ビットでは、約 65K のツイートで衝突が発生し始めると誰かが述べました。もちろん、ツイート #2 で衝突が発生する可能性があります。しかし、2^16 = ~65K ですが、2^32 = ~4 兆であるため、そのコメントの作成者は混乱していたと思います。そのため、もう少し余裕があります。

より良いアルゴリズムは、ツイートの「固有の」部分を導き出し、それをフィンガープリントすることです。これはハッシュではなく、一意性を定義するいくつかのキーワードのフィンガープリントです。

score 1 · Accepted Answer

ツイートの長さはわずか140文字なので、ツイート全体をデータベースに保存することもできます...

しかし、どういうわけか本当にそれらを「ハッシュ」したい場合、簡単な方法は、ツイート内のすべての文字のASCII値の合計を取得することです。

sum(ord(c) for c in tweet)

もちろん、ハッシュが一致する場合は常に、ツイート自体が同一であるかどうかを確認する必要があります。これは、同じ「合計ハッシュ」を与える2つのツイートが見つかる可能性はおそらく無視できないためです。

score 0 · Accepted Answer

0

Pythonのシェルフモジュール？http://docs.python.org/library/shelve.html

于 2009-05-02T18:20:51.707 に答える

score 0 · Accepted Answer

文字列をハッシュしようとしていますか？組み込み型はすぐにハッシュできます。ハッシュするだけで、hash("some string")intを取得できます。Pythonが辞書に使用するのと同じ関数なので、おそらく最良の選択です。

python - 計算コストの低いPythonハッシュアルゴリズムを使用したリツイートの検出

7 に答える 7

Related

Reference