2

私は以下を実装することを計画しています:私が次の形式の辞書を持っていると考えてみましょう:

ボブ・ディラン、AC / DC、アンボイ・デュークス、ジョージ・サラグッド、デストロイヤーズ。

したがって、辞書には1つのトークン、2つのトークン、および最大n個のトークンまでの単語が含まれます。

さて、コンテンツ(段落)がある場合、その単語が上記の辞書の一部である場合は、コンテンツをリンクしたいと思います。例:私のコンテンツが次の形式の場合:

ボブ・ディランは、1941年5月24日にミネソタ州ダルースのセントメアリーズ病院でロバート・アレン・ジマーマンとして生まれ、ミネソタ州ヒビングのスペリオル湖の西にあるメサビ鉄山で育ちました。

パラグラフでは、Bob Dylanが使用されており、BobDylanが辞書の一部であることがわかります。辞書内の何百万ものレコードに対してこれを効率的に識別するためのアルゴリズムはありますか?

4

1 に答える 1

4

Aho-Corasick文字列照合アルゴリズムを探している可能性があります。

アルゴリズムは辞書からオートマトンを構築し、このオートマトンへのテキストのストリームで一致するものを探します。

于 2013-01-31T14:24:00.707 に答える