1

NLTK を使用してアラビア語テキストのチャンク NP、VP、PP を抽出できるかどうか、およびアラビア語コーパスをどのように使用できるかを知りたいアラビア語テキストのチャンクに関するプロジェクトがあります。誰か助けてください!

4

1 に答える 1

1

完璧にはほど遠いですが (主にアラビア語の言語特性が英語の言語特性と大きく異なるためです)、コンピューター サイエンスの学生が 2011 年に有望そうなアラビア語分析ツールキットを開発しました。彼は「品詞タガーと形態素解析器からなる統合ソリューションを開発しました。ツールキットは古典アラビア語でトレーニングされ、現代標準アラビア語のサンプル テキストでテストされました。」このツールの制限は、テスト セットが MSA であるのに対し、トレーニング セットが古典的であることだと思います。

この論文は、既存のツールとその相対的な成功 (および欠点) に対処しているため、素晴らしい出発点です。また、2010 年の論文も非常に参考になると思いますので、強くお勧めします。また、印刷版または電子版の書籍としても入手できます

また、個人的なメモとして、NLP に精通したネイティブ スピーカーがGoogle ta3reeb ( Java オープン ソース ユーティリティとして入手可能) を使用して、より優れたツールとライブラリを開発することを期待しています。私の考えのほんの一部ですが、アラビア語 NLP に関する私の実際の経験は非常に限られています。アラビア語 NLP の原則を適用する検索ソリューションを開発したさまざまな企業がありますが、それらの作業の多くは独自のものである可能性があります (たとえば、Basis Technologyこれにかなり広範囲に取り組んでいることは承知しています。私は Basis と提携していません)。決して行ったことがない)。

于 2013-05-10T01:35:32.713 に答える