確率なしでレキシコンベースの文字列トークン化のためにmaxmatchアルゴリズムを実装しようとしています。どこから始めたらいいのかわからない。誰かアイデアがありますか?
質問する
1151 次
まず、トークンの 1 つまでの単語の距離を測定するメトリックが必要です。Python ライブラリdifflibは、これを達成するのに役立つ良い出発点であることは間違いありません。
ただし、テキスト全体をキーワード (検索語など) と一致させたいのか、辞書内の各単語に対して 1 つの単語だけを一致させたいのかは明確ではありません。
どちらの場合も、おそらく difflib のドキュメントが役に立ちます。