tl;dr答え
次のリストを展開するだけです。
より長い答え
最初にこの質問をして以来、ドキュメントは大幅に改善されており、spaCy はこれをより適切にドキュメント化しています。
品詞タグ
および属性はhttps://spacy.io/api/annotation#pos-taggingpos
で表にされており、これらの値のリストの起源が説明されています。この (2020 年 1 月) 編集の時点で、ドキュメントは属性について次のように述べています。tag
pos
spaCy は、Universal Dependencies スキームに従って、すべての言語固有の品詞タグを単語タイプ タグの小さな固定セットにマップします。ユニバーサル タグは形態学的特徴をコード化せず、単語タイプのみをカバーします。これらはToken.pos
およびToken.pos_
属性として使用できます。
属性に関してtag
は、ドキュメントは次のように述べています。
英語の品詞タガーは、Penn Treebank タグ セットのOntoNotes 5バージョンを使用します。また、タグをより単純な Universal Dependencies v2 POS タグ セットにマッピングします。
と
ドイツ語の品詞タガーは、TIGER Treebankアノテーション スキームを使用します。また、タグをより単純な Universal Dependencies v2 POS タグ セットにマッピングします。
したがって、言語間で一貫した粗粒度のタグ セット ( ) を使用するか、特定のツリーバンクに固有で特定の言語に固有.pos
の細粒度のタグ セット ( ) を使用するかを選択できます。.tag
.pos_
タグリスト
pos
ドキュメントには、およびpos_
属性に使用される次の大まかなタグがリストされています。
ADJ
: 形容詞、例えば、大きい、古い、緑の、理解できない、最初の
ADP
: in, to, during などの副詞
ADV
: 副詞、例えば、非常に、明日、下に、どこに、そこに
AUX
: 助動詞、例: is、has (完了)、will (実行)、should (実行)
CONJ
: 接続詞、例えばand、or、but
CCONJ
: and、or、but などの調整接続詞
DET
: 決定子、例えば、a、an、the
INTJ
: 間投詞、例: psst、ouch、bravo、hello
NOUN
: 名詞、例: girl、cat、tree、air、beauty
NUM
: 数字。例: 1、2017、1、77、IV、MMXIV
PART
: 粒子、たとえば 's、not、
PRON
: 代名詞、例えば、私、あなた、彼、彼女、自分自身、自分自身、誰か
PROPN
: 固有名詞。例: Mary、John、London、NATO、HBO
PUNCT
: 句読点。例: ., (, ), ?
SCONJ
: 従属接続詞。例: if、while、that
SYM
: 記号、例: $、%、§、©、+、−、×、÷、=、:)、
VERB
: 動詞、例えば、走る、走る、走る、食べる、食べる、食べる
X
: その他、例: sfpksdpsxmsa
SPACE
: スペース、例えば
このリストがユニバーサル依存関係スキームに従っていると彼らが言っているとき、ドキュメントは少し嘘をついていることに注意してください。そのスキームの一部ではない上記の 2 つのタグがあります。
そのうちの 1 つが で、以前はユニバーサル POS タグ スキームに存在していましたが、spaCy が最初に作成されてからとCONJ
に分割されました。ドキュメント内の tag->pos のマッピングに基づくと、spaCy の現在のモデルは実際には を使用していないように見えますが、何らかの理由でまだ spaCy のコードとドキュメントに存在しています - おそらく古いモデルとの後方互換性のためです。CCONJ
SCONJ
CONJ
2 つ目はSPACE
で、これはユニバーサル POS タグ スキームの一部ではなく (そして、私が知る限り、決してそうではありませんでした)、単一の通常の ASCII スペース (独自のトークンを取得しない) 以外のスペースのために spaCy によって使用されます。 :
>>> document = en_nlp("This\nsentence\thas some weird spaces in\n\n\n\n\t\t it.")
>>> for token in document:
... print('%r (%s)' % (str(token), token.pos_))
...
'This' (DET)
'\n' (SPACE)
'sentence' (NOUN)
'\t' (SPACE)
'has' (VERB)
' ' (SPACE)
'some' (DET)
'weird' (ADJ)
'spaces' (NOUN)
'in' (ADP)
'\n\n\n\n\t\t ' (SPACE)
'it' (PRON)
'.' (PUNCT)
.tag_
タグの完全なリスト (より細かいもの) はこの回答から省略します。タグは多数あり、現在は十分に文書化されており、英語とドイツ語では異なり、おそらくリリース間で変更される可能性が高いためです。代わりに、可能性のあるすべてのタグ、タグがマップする値、およびその意味の説明がリストされているドキュメント (英語の場合はhttps://spacy.io/api/annotation#pos-enなど) のリストを参照してください。.pos_
依存トークン
現在、spaCy が依存関係のタグ付けに使用する3つの異なるスキームがあります。繰り返しますが、値のリストは膨大なため、ここでは完全には再現しません。すべての依存関係には、その横に簡単な定義がありますが、残念ながら、それらの多く (「同格修飾子」や「句補体」など) は、私のような日常のプログラマーにとってかなり異質な技術用語です。言語学者でない場合は、これらの専門用語の意味を調べて意味を理解する必要があります。
ただし、少なくとも英語のテキストを扱う人々のために、その研究の出発点を提供することはできます. 実際の文で CLEAR 依存関係 (英語モデルで使用) の例をいくつか見たい場合は、Jinho D. Choi の 2012 年の作業をチェックしてください: 彼のOptimization of Natural Language Processing Components for Robustness and Scalabilityまたは彼のガイドラインCLEAR スタイル構成要素から依存関係への変換(これは、以前の論文のサブセクションにすぎないようです)。どちらも、定義と例文とともに、2012 年に存在したすべての CLEAR 依存関係ラベルをリストしています。(残念ながら、CLEAR 依存関係ラベルのセットは 2012 年から少し変更されているため、最新のラベルの一部は Choi の作品にリストまたは例示されていませんが、少し古くなっていますが、有用なリソースであり続けています。)