自然言語処理(NLP)についてもっと学ぶことに興味があります。現在、辞書認識に基づかないテキスト内の固有名詞を認識する方法があるかどうか知りたいです。また、現在の辞書ベースの方法を説明するリソースを説明したり、リンクしたりできますか? NLP の権威ある専門家は誰ですか、またはこのテーマに関する決定的なリソースは何ですか?
8 に答える
The task of determining the proper part of speech for a word in a text is called Part of Speech Tagging. The Brill tagger, for example, uses a mixture of dictionary(vocabulary) words and contextual rules. I believe that some of the important initial dictionary words for this task are the stop words. Once you have (mostly correct) parts of speech for your words, you can start building larger structures. This industry-oriented book differentiates between recognizing noun phrases (NPs) and recognizing named entities. About textbooks: Allen's Natural Language Understanding is a good, but a bit dated, book. Foundations of Statistical Natural Language Processing is a nice introduction to statistical NLP. Speech and Language Processing is a bit more rigorous and maybe more authoritative. The Association for Computational Linguistics is a leading scientific community on computational linguistics.
辞書ベースのアプローチ以外に、他に 2 つの方法が思い浮かびます。
- パターンベースのアプローチ (単純な形式: 大文字で始まるものはすべて固有名詞です)
- 機械学習のアプローチ (トレーニング コーパスで固有名詞をマークし、分類器をトレーニングする)
この分野は主に固有表現抽出と呼ばれ、情報抽出のサブ分野と見なされることがよくあります。NLP のさまざまな分野の出発点としては、通常、Oxford Handbook of Computational Linguistics の該当する章を参照してください。
(出典: oup.com )
「名前付きエンティティの認識」を検索してみてください。これは、NLP の文献でこの種のことに対して使用されている用語です。
辞書ベースの意味によって異なります。
例えば、辞書に載っていないものは固有名詞だと思って進めようとするのも一つの戦略です。これが賢明な解析につながる場合は、仮定が暫定的に検証されたと考えて続行し、そうでない場合はそうではないと結論付けてください。
その他のアイデア:
- 主語の位置では、決定詞のない単純な主語が良い候補です。
- 前置詞句の同上
- どの位置においても、所有限定詞の基礎 (たとえば、「ボブの妹」のボブ) は良い候補です。
-- マーカスQ
推奨されるいくつかのツールキット: 1. Opennlp: タスク用の Named Entity Recognition コンポーネントがあります。 2. LingPipe: NER コンポーネントもあります。4. nltk: Python NLP パッケージ