0

これはおそらく古典的な NLP の問題ですが、一連のツイートから FULL エンティティを抽出するにはどうすればよいでしょうか?

たとえば、"Boston" と "marathon" に言及しているツイートが多数あり、両方とも同じツイートに含まれているとします。ボストンやマラソンだけでなく、「ボストン マラソン」を抽出する必要があることをどのように知ることができますか?

同様に、「ゲーム・オブ・スローンズ」に言及するツイートがたくさんあるとします。抽出されるエンティティが単なるゲームではなく、ゲーム オブ スローンズであることをどのように確認できますか?

4

4 に答える 4

0

DBpedia-Spotlight エンドポイントで試すこともできます。

http://spotlight.dbpedia.org/rest/spot/?text=

于 2014-02-21T05:31:45.357 に答える
0

現在、イベント データベースから名前付きエンティティを抽出しています。私はいくつかのライブラリNLTK、PHPスクリプトなどを試しましたが、私が見つけた最高のものはスタンフォードNERです: http://nlp.stanford.edu:8080/ner/

english.all.3class.distim.crf.ser.gz

<PERSON>John</PERSON> saw Game of Thrones.

english.conll.4class.distim.crf.ser.gz

John saw <ORGANIZATION>Game of Thrones</ORGANIZATION>.

分類されたタイプは無視してください。

さまざまな分類子を使用して、テキストからエンティティを抽出します。その後、スタンフォード パーサーを使用します: http://nlp.stanford.edu:8080/parser/

型指定された依存関係、折りたたみ

nsubj(saw-2, John-1)
root(ROOT-0, saw-2)
dobj(saw-2, Game-3)
prep_of(Game-3, Thrones-5)

http://nlp.stanford.edu/software/dependencies_manual.pdf

どの名前付きエンティティが必要かどうかを指定します。

于 2014-10-30T13:29:26.000 に答える