最近、「自然言語処理」に関するコースラのクラスに参加し、構文解析、IR、Q&A などの興味深い側面について多くのことを学びました。概念はよく理解できましたが、実際には実践的な知識は得られませんでした。自然言語処理に関する優れたオンライン チュートリアルや本を教えてくれる人はいますか?
ありがとう
最近、「自然言語処理」に関するコースラのクラスに参加し、構文解析、IR、Q&A などの興味深い側面について多くのことを学びました。概念はよく理解できましたが、実際には実践的な知識は得られませんでした。自然言語処理に関する優れたオンライン チュートリアルや本を教えてくれる人はいますか?
ありがとう
この分野の標準教科書であるJurafsky and Martin のSpeech and Language Processing (2008 年版)を読むことができます。長く、さまざまなトピックが含まれているので、自分の興味に本当に当てはまる章だけを読むことをお勧めします。
さらに、学習するための最良の方法は、NLP アルゴリズムをゼロから実際に実装することです。いくつかの標準的なタスク (言語モデリング、テキスト分類、POS タグ付け、NER、解析) を選択し、さまざまなアルゴリズム (ngram モデル、HMM、Naive Bayes、MaxEnt、CKY) をゼロから実装して、それらが機能する理由を本当に理解することができます。また、実装をテストするための無料のデータセットを見つけるのも難しくありません。
最後に、特定の NLP アルゴリズムに関する優れたチュートリアルがたくさんあります。たとえば、HMM を構築したい場合は、EM を使用した平滑化と教師なしトレーニングについても説明しているJason Eisner のチュートリアルをお勧めします。教師なし Naive Bayes トレーニングに Gibbs サンプリングを実装する場合は、Philip Resnik のチュートリアルをお勧めします。
Jurafsky と Martin の本の他に、Christopher D. Manning と Hinrich Schütze のFoundations of Statistical Natural Language Processingも広く使用されています。IRについては、マニングら。また、 Introduction to Information Retrievalも書きました。これは、彼らのサイトでオンラインで読んだりダウンロードしたりできます。
自然言語にどのように取り組むことができるかについての実践的な知識が必要な場合は、実装を開始する必要があります。Python で NLTK (自然言語処理ツールキット) を使用することをお勧めします。Python で NLP を実装するのは簡単です。
このリンクを参照できます http://nltk.org/
または、 http://cst.dk/online/pos_tagger/uk/でオンラインで試すこともでき ます。
特定の本を読む代わりに、紙の海に飛び込むのも良い考えかもしれません。たとえばhttp://www.aclweb.orgには、NLP に関する多くのトピックが含まれています。これらの論文を通じて、より多くの論文への参照を得ることができます。そのうちのいくつかは、NLP の特定の分野の基礎となっています。また、それらは異なる著者によって書かれているため、1 つの視点にあまり影響を受けることはありません。
TeLeMaCoという教材と学習教材のハブがあります。NLP のさまざまな側面に関するリソースを見つけることができ、Web で見つけた資料を簡単に追加できます。