9

これは可能ですか: NLTK だけを使用してスタンフォードの Named Entity Recognizer 機能を (同様に) 取得するには?

例はありますか?

特に、テキストの LOCATION 部分の抽出に興味があります。例えばテキストから

会議は、11 月から 18 日に 22 West Westin st., South Carolina, 12345 で開催されます。

理想的には、次のようなものを取得したいと思います

(S  
22/LOCATION
(LOCATION West/LOCATION Westin/LOCATION)
st./LOCATION
,/,
(South/LOCATION Carolina/LOCATION)
,/,
12345/LOCATION

.....

または単に

22 West Westin st., South Carolina, 12345

代わりに、私は得ることができるだけです

(S
  The/DT
  meeting/NN
  will/MD
  be/VB
  held/VBN
  at/IN
  22/CD
  (LOCATION West/NNP Westin/NNP)
  st./NNP
  ,/,
  (GPE South/NNP Carolina/NNP)
  ,/,
  12345/CD
  on/IN
  Nov.-18/-NONE-)

テキストを http://nlp.stanford.edu:8080/ner/processに入力すると、完全にはほど遠い結果が得られることに注意してください (番地と郵便番号はまだ欠落しています) が、少なくとも「st」です。はLOCATIONの一部であり、サウスカロライナはLOCATIONであり、一部の「GPE / NNP」ではありません:?

私が間違っていることを教えてください。NLTK を使用してテキストからロケーション ピースを抽出するように修正するにはどうすればよいですか?

よろしくお願いします!

4

1 に答える 1