私はコンピュータ サイエンスの学生で、Nutch 検索エンジンに基づくプロジェクトに取り組んでいます。アラビア語の Web サイトのインデックス作成と検索を改善する Java アルゴリズムを開発したいと考えています。この目的のためにどのように最適化できますか、アイデアはありますか?
1 に答える
0
アラビア語には 29 のアルファベットがあり、これらのアルファベットの一部には、さまざまな形式のアリフ (أ) のようなサブ アルファベットがあります。
サブアルファベットに寛容であることができた場合、つまりこれらの文字のスペルミスを許可した場合
例: أحمد と احمد および إحمد と آحمد は、UTF8 値が異なりますが、近い結果と見なすことができます。
さらに、単数形、複数形、動詞、名詞などを検索できるように単語から語根を導き出すことができれば.
したがって、誰かが قال (言った) と入力した場合、検索語に قول (言っている) と (يقول) (言う) と مقال (言うこと) などを含めることができます。そのようなことを行うには、複雑なエンジンが必要になります。
最後に、入力のオプションである tashkeel (母音の装飾) を考慮すると、より具体的な検索として使用できますが、無視することができます。
例: رجل は、رَجُلٌ (男性を意味する) または رَجَلَ (足で歩くことを意味する) または رِِِِِجْل (脚) と一致する可能性があります。
これが役立つことを願っています
于 2010-05-22T09:03:07.290 に答える