nlp - 一連のテキストから完全なエンティティを抽出する方法 (部分的なエンティティではない)

Question

これはおそらく古典的な NLP の問題ですが、一連のツイートから FULL エンティティを抽出するにはどうすればよいでしょうか?

たとえば、"Boston" と "marathon" に言及しているツイートが多数あり、両方とも同じツイートに含まれているとします。ボストンやマラソンだけでなく、「ボストンマラソン」を抽出する必要があることをどのように知ることができますか?

同様に、「ゲーム・オブ・スローンズ」に言及するツイートがたくさんあるとします。抽出されるエンティティが単なるゲームではなく、ゲームオブスローンズであることをどのように確認できますか?

score 0 · Accepted Answer

DBpedia-Spotlight エンドポイントで試すこともできます。

score 0 · Accepted Answer

現在、イベントデータベースから名前付きエンティティを抽出しています。私はいくつかのライブラリNLTK、PHPスクリプトなどを試しましたが、私が見つけた最高のものはスタンフォードNERです: http://nlp.stanford.edu:8080/ner/

english.all.3class.distim.crf.ser.gz

<PERSON>John</PERSON> saw Game of Thrones.

english.conll.4class.distim.crf.ser.gz

John saw <ORGANIZATION>Game of Thrones</ORGANIZATION>.

分類されたタイプは無視してください。

さまざまな分類子を使用して、テキストからエンティティを抽出します。その後、スタンフォードパーサーを使用します: http://nlp.stanford.edu:8080/parser/

型指定された依存関係、折りたたみ

nsubj(saw-2, John-1)
root(ROOT-0, saw-2)
dobj(saw-2, Game-3)
prep_of(Game-3, Thrones-5)

どの名前付きエンティティが必要かどうかを指定します。

4 に答える 4