python - タミル語のチャンキング

Question

タミル語 (インド語) に NLTK チャンカーを使用したいと考えています。ただし、正規表現に「pre」モジュールを使用しているため、Unicode をサポートしていないとのことです。

未解決の問題

このモジュールを正規表現に使用するreと、Python の正規表現エンジンは、再帰を必要としない正規表現であっても、非常に大きなテキストを処理するときに「最大再帰深度を超えました」というエラーを生成します。したがって、pre代わりにモジュールを使用します。ただしpre、Unicode サポートが含まれていないため、このモジュールは Unicode 文字列では機能しないことに注意してください。

回避策またはそれを達成するための別の方法について何か提案はありますか?

score 2 · Accepted Answer

LTRCのタミル語用の浅いパーサーを使用できます。

ここでオンラインデモを確認できます。

python - タミル語のチャンキング

未解決の問題

2 に答える 2

Related

Reference