c - ハッシュテーブルを使用して、文のリストで最も一般的なフレーズを見つける方法

Question

すべての文は句読点のない小文字の英語であり、フレーズは 3 つの連続した単語として定義されているため、文が次の場合: i am jessica hunt

フレーズは「私はジェシカです」と「ジェシカ・ハントです」

ファイルのすべての文に存在する場合、フレーズは一般的です

この問題に適切なハッシュ関数を教えてください

score 1 · Accepted Answer

何でもあり。(3*a + 5*b + 7*c) から始めます。{a,b,c} は 3 つの連続する単語の単語番号 (またはハッシュ値) です。(もちろんすべて符号なし、モジュロワードサイズ)

score 0 · Accepted Answer

ジェシカ、文1ではなくn-gramハッシャーが必要だと思います（これはほとんど同じです）。私は C で書いた超高速の n-gram リッパーを以下から自由にダウンロードできます: http://www.sanmayce.com/Downloads/index.html#Leprechaun

レプラコーンは、「文」「私はジェシカハントです」を次の 2 つの 3 グラムに切り詰めます: i_am_jessica am_jessica_hunt

おそらく、n グラミングもあなたのものです。

2 に答える 2