タミル語 (インド語) に NLTK チャンカーを使用したいと考えています。ただし、正規表現に「pre」モジュールを使用しているため、Unicode をサポートしていないとのことです。
未解決の問題
このモジュールを正規表現に使用する
re
と、Python の正規表現エンジンは、再帰を必要としない正規表現であっても、非常に大きなテキストを処理するときに「最大再帰深度を超えました」というエラーを生成します。したがって、pre
代わりにモジュールを使用します。ただしpre
、Unicode サポートが含まれていないため、このモジュールは Unicode 文字列では機能しないことに注意してください。
回避策またはそれを達成するための別の方法について何か提案はありますか?