私は見出し語化を試みます。つまり、見出し語とおそらく動詞のアラビア語語根を特定しようとします。たとえば、次のようになります。 > またね
スタンフォード NLP でそれができると思いますか?
よろしくお願いします、
私は見出し語化を試みます。つまり、見出し語とおそらく動詞のアラビア語語根を特定しようとします。たとえば、次のようになります。 > またね
スタンフォード NLP でそれができると思いますか?
よろしくお願いします、
スタンフォード アラビア語のセグメンターは、真の見出し語化を行うことができません。ただし、ステミングなどを行うように新しいモデルをトレーニングすることは可能です。
出力が実際のアラビア語の補題であることが非常に重要な場合 ("تصل" は真の補題ではありません)、MADAMIRA ( http://nlp.ldeo.columbia.edu/madamira/ ) のようなツールを使用した方がよい場合があります。
詳細:スタンフォード アラビア語セグメンターは、次の操作のみを使用して文字ごとに出力を生成します ( に実装されていますedu.stanford.nlp.international.arabic.process.IOBUtils
)。
したがって、 يتصل を ي+ اتصل に見出し語化するには、追加のルールを実装する必要があります。つまり、ya または ta の後にアリフを挿入する必要があります。特定の不規則な形式の見出し語化は完全に不可能です (たとえば、نساء ← امرأة)。
ダウンロード可能なスタンフォード セグメンターのバージョンも、代名詞と助詞のみを分割します。
وگکونگ ← و+ س+ iktشphonn +nee
ただし、LDC アラビア語ツリーバンク、または形態学的セグメンテーションに注釈が付けられたアラビア語テキストの同様の豊富なソースにアクセスできる場合は、独自のモデルをトレーニングしてすべての形態学的接辞を削除することができます。これは見出し語化に近づきます。
وگککونگ ← و+ س+ ي+ कتشک +ون +nee
「कتشک」は実際のアラビア語ではありませんが、セグメンターは、 تकتشفين 、أकتشف 、ikتشف などに対して、少なくとも一貫して「कتشف」を生成する必要があることに注意してください。これが許容される場合は、ATB 前処理スクリプトを変更して、代わりに形態学的セグメンテーションの注釈。parse_integrated
呼び出されたスクリプトを次のような修正版に置き換えることでこれを行うことができます: https://gist.github.com/futurulus/38307d98992e7fdeec0d
次に、README の「TRAINING THE SEGMENTER」の指示に従います。