c++ - 単語辞書でフラグメントで始まる/含む/終わる単語を取得する

Question

英語辞書の AZ からのすべての辞書単語のリストがあると仮定します。

これらの単語のリストに対して実行する 3 つのケースがあります。

1)特定の断片で「始まる」すべての単語を見つける

eg: If my fragment is 'car', word 'card' should be returned

2)部分文字列としてフラグメントを「含む」すべての単語を見つける

eg: If my fragment is 'ace', word 'facebook' should be returned

3)特定の断片で「終わる」すべての単語を見つける

eg: If my fragment is 'age', word 'image' should be returned

インターネットで検索を行った結果、1) トライ/圧縮トライを使用して実行でき、3) サフィックスツリーを使用して実行できることがわかりました。

2）をどのように達成できるかわかりません。さらに、これら 3 つのケースすべてを処理できる、より良いシナリオはありますか? プレフィックスツリーとサフィックスツリーの両方を維持することは、メモリを集中的に使用するタスクになる可能性があるためです。

他に気を付けるべきエリアがあれば教えてください。

前もって感謝します。

PS: これを実現するために C++ を使用します

EDIT 1:当分の間、ここから多大な助けを借りてサフィックスツリーを構築しました。

C 言語での単一単語サフィックスツリーの生成

ここでは、英語辞書の単語全体のサフィックスツリーを構築する必要があります。だから私は作成する必要があります

a) 単語ごとに個別のサフィックスツリーまたは

b) すべての単語の一般化された接尾辞ツリーを作成します。

a) の場合の部分文字列の照合中に、単語ごとに個々のツリーを追跡する方法がわかりません

ポインタはありますか？

score 1 · Accepted Answer

コメントで指摘したように、接頭辞と接尾辞のケースは、一般的な部分文字列のケース (#2) でカバーされます。すべての接頭辞と接尾辞は、定義上、部分文字列でもあります。したがって、解決する必要があるのは、一般的な部分文字列の問題だけです。

静的辞書があるので、それを比較的簡単に前処理して、部分文字列をすばやくクエリできる形式にすることができます。サフィックスツリーを使用してこれを行うこともできますが、データの単純な並べ替えられたフラットベクトルを作成して処理する方がはるかに簡単なので、ここで説明します。

したがって、最終的な目標は、ソートされたサブワードのリストを作成して、バイナリ検索を実行して一致を見つけることです。

まず、クエリフラグメントに一致する最長の部分文字列を見つけるために、各単語のすべての可能な部分文字列をリストする必要はなく、単にすべての可能なサフィックスをリストする必要があることに注意してください。これは、すべての部分文字列が単に接尾辞の接頭辞と考えられるためです。（わかりましたか？初めて遭遇したときは少し戸惑いますが、最終的にはシンプルで非常に便利です。）

したがって、各辞書の単語のすべての接尾辞を生成し、それらをすべて並べ替えると、辞書の単語のいずれかで特定の部分文字列を見つけるのに十分ですstd::lower_bound。クエリフラグメントで始まる最初のサフィックス。次に、上限 ( std::upper_bound) を見つけます。これは、クエリフラグメントで始まる最後の接尾辞の 1 つ後ろになります。範囲 [lower, upper[] 内のすべての接尾辞はクエリフラグメントで始まる必要があるため、これらの接尾辞の元のすべての単語にはクエリフラグメントが含まれます。

さて、実際にすべての接尾辞を実際にスペルアウトすると、非常に多くのメモリが必要になることは明らかですが、その必要はありません。接尾辞は、単語への単なるインデックス、つまり接尾辞が始まるオフセットと考えることができます。したがって、可能なサフィックスごとに 1 組の整数のみが必要です。1 つは (元の) 単語インデックス用で、もう 1 つはその単語のサフィックスのインデックス用です。(辞書のサイズに応じて、これら 2 つを巧みにまとめると、スペースをさらに節約できます。)

要約すると、必要なことは次のとおりです。

すべての単語について、すべての単語と接尾辞のインデックスペアの配列を生成します。
接尾辞 (数値ではありません) として意味上の意味に従ってこれらを並べ替えます。std::stable_sortカスタムコンパレータを使用することをお勧めします。これは最長の手順ですが、辞書は静的であるため、オフラインで 1 回実行できます。
特定のクエリフラグメントについて、並べ替えられたサフィックスインデックスの下限と上限を見つけます。この範囲内の各サフィックスは、一致する部分文字列 (単語インデックスの単語のサフィックスインデックスから始まる、クエリの長さ) に対応します。一部の単語は複数回一致する場合があり、一致が重複する場合さえあることに注意してください。

明確にするために、「スカンク」と「チーズ」という単語で構成される辞書のごくわずかな例を次に示します。

「skunk」の接尾辞は、「skunk」、「kunk」、「unk」、「nk」、および「k」です。インデックスとして表現すると、です0, 1, 2, 3, 4。「チーズ」の接尾辞は、「cheese」、「heese」、「eese」、「ese」、「se」、および「e」です。インデックスは0, 1, 2, 3, 4, 5.

「スカンク」は非常に限られた架空の辞書の最初の単語なので、インデックス 0 を割り当てます。「チーズ」はインデックス 1 です。したがって、最後の接尾辞は次のとおり0:0, 0:1, 0:2, 0:3, 0:4, 1:0, 1:1, 1:2, 1:3, 1:4, 1:5です。

これらのサフィックスを並べ替えると、次のサフィックスディクショナリが生成されます (説明のために、実際の対応するテキスト部分文字列を追加しました)。

0  | 0:0 | cheese
1  | 0:5 | e
2  | 0:2 | eese
3  | 0:3 | ese
4  | 0:1 | heese
5  | 1:4 | k
6  | 1:1 | kunk
7  | 1:3 | nk
8  | 0:4 | se
9  | 1:0 | skunk
10 | 1:2 | unk

クエリフラグメント「e」を考えてみましょう。「e」はクエリ「e」以上の最初のサフィックスであるため、下限は 1 です。4 ("heese") は "e" より大きい最初のサフィックスであるため、上限は 4 です。したがって、1、2、および 3 の接尾辞はすべてクエリで始まるため、それらが由来するすべての単語には、クエリが部分文字列として含まれています (クエリの長さの接尾辞インデックス)。この場合、これら 3 つのサフィックスはすべて、異なるオフセットで「cheese」に属しています。

どの単語の部分文字列でもないクエリフラグメント (この例では "a" など) の場合、一致するものがないことに注意してください。このような場合、下限と上限は等しくなります。

c++ - 単語辞書でフラグメントで始まる/含む/終わる単語を取得する

2 に答える 2

Related

Reference