1

WordNet への単語入力を「التََََُّّاحْ」のようにフォーマットする必要があり、「التفاح」を期待することはできません...すべての可能な類義語のリストを返す、フォーマットされていないアラビア語を使用するライブラリまたはサービスはありますか。

4

1 に答える 1

0

からالتُّفَّاحْまでالتفاح、分音符号を削除したいだけなら、字句正規化ツールが必要です。Tashaphyneを試し、ダウンロードしてインストールし、normalizeモジュールhttp://pythonhosted.org/Tashaphyne/Tashaphyne.normalize-module.htmlを使用します。

from Tashaphyne import *

text = 'التُّفَّاحْ'
print normalize_hamza(text)
print normalize_lamalef(text)
print normalize_searchtext(text)
于 2013-04-27T08:06:02.510 に答える