現在、spaCy を使用して依存関係ツリーを走査し、エンティティを生成しています。
nlp = get_spacy_model(detect_lang(unicode_text))
doc = nlp(unicode_text)
entities = set()
for sentence in doc.sents:
# traverse tree picking up entities
for token in sentence.subtree:
## pick entitites using some pre-defined rules
entities.discard('')
return entities
spaCy に適した Java の代替手段はありますか?
spaCy によって行われるように、依存関係ツリーを生成するライブラリを探しています。
編集:
Stanford Parser を調べました。ただし、次の解析ツリーが生成されました。
ROOT
|
NP
_______________|_________
| NP
| _________|___
| | PP
| | ________|___
NP NP | NP
____|__________ | | _______|____
DT JJ JJ NN NNS IN DT JJ NN
| | | | | | | | |
the quick brown fox jumps over the lazy dog
ただし、spaCy のようなツリー構造を探しています。
jumps_VBZ
__________________________|___________________
| | | | | over_IN
| | | | | |
| | | | | dog_NN
| | | | | _______|_______
The_DT quick_JJ brown_JJ fox_NN ._. the_DT lazy_JJ