これは可能ですか: NLTK だけを使用してスタンフォードの Named Entity Recognizer 機能を (同様に) 取得するには?
例はありますか?
特に、テキストの LOCATION 部分の抽出に興味があります。例えばテキストから
会議は、11 月から 18 日に 22 West Westin st., South Carolina, 12345 で開催されます。
理想的には、次のようなものを取得したいと思います
(S
22/LOCATION
(LOCATION West/LOCATION Westin/LOCATION)
st./LOCATION
,/,
(South/LOCATION Carolina/LOCATION)
,/,
12345/LOCATION
.....
または単に
22 West Westin st., South Carolina, 12345
代わりに、私は得ることができるだけです
(S
The/DT
meeting/NN
will/MD
be/VB
held/VBN
at/IN
22/CD
(LOCATION West/NNP Westin/NNP)
st./NNP
,/,
(GPE South/NNP Carolina/NNP)
,/,
12345/CD
on/IN
Nov.-18/-NONE-)
テキストを http://nlp.stanford.edu:8080/ner/processに入力すると、完全にはほど遠い結果が得られることに注意してください (番地と郵便番号はまだ欠落しています) が、少なくとも「st」です。はLOCATIONの一部であり、サウスカロライナはLOCATIONであり、一部の「GPE / NNP」ではありません:?
私が間違っていることを教えてください。NLTK を使用してテキストからロケーション ピースを抽出するように修正するにはどうすればよいですか?
よろしくお願いします!