これは、stackoverflowでのほとんどのトライの問題とは少し異なります(はい、私は検索と読み取りに時間を費やしました)ので、ご容赦ください。
私は次のような単語を含むファイルAを持っています:allow *、apolog*など。合計で数万のそのようなエントリがあります。そして、最大数千の単語を含むテキストの本文を含むファイルBがあります。ファイルBのテキストの単語とファイルAの単語を一致させたい。
例:
ファイルBの「謝罪」はファイルAの「謝罪*」と一致します
ファイルBの「a」は「allow*」にも「apolog*」にも一致しません
FILEBの「apologizetomenoworelseiwillkillyou」もFILEAの「apolog*」と一致します
これを達成するのに役立つアルゴリズム/データ構造(Pythonで実行可能であることが望ましい)を誰かが提案できますか?私が調べた試みは、接頭辞を単語全体に一致させることに関するもののようですが、ここでは、単語全体を接頭辞に一致させています。ステミングアルゴリズムはルールが固定されているため問題外ですが、この場合、私の接尾辞は何でもかまいません。時間がかかりすぎるため、ファイルAのリスト全体を繰り返し処理したくありません。
これが紛らわしい場合は、明確にさせていただきます。ありがとう。