WordNet への単語入力を「التََََُّّاحْ」のようにフォーマットする必要があり、「التفاح」を期待することはできません...すべての可能な類義語のリストを返す、フォーマットされていないアラビア語を使用するライブラリまたはサービスはありますか。
質問する
325 次
1 に答える
0
からالتُّفَّاحْ
までالتفاح
、分音符号を削除したいだけなら、字句正規化ツールが必要です。Tashaphyneを試し、ダウンロードしてインストールし、normalize
モジュールhttp://pythonhosted.org/Tashaphyne/Tashaphyne.normalize-module.htmlを使用します。
from Tashaphyne import *
text = 'التُّفَّاحْ'
print normalize_hamza(text)
print normalize_lamalef(text)
print normalize_searchtext(text)
于 2013-04-27T08:06:02.510 に答える