scala - テキストから WikiData エンティティを効率的に抽出する

Question

私は、100 から 4000 語のテキスト (数百万) をたくさん持っています。テキストは、句読点と文法を使用して、書かれた作品としてフォーマットされています。すべて英語です。

問題は単純です:与えられたテキストからすべての WikiData エンティティを抽出するにはどうすればよいでしょうか?

エンティティは、固有名詞または通常のすべての名詞として定義されます。つまり、人、組織、場所、椅子、ポテトなどの名前です。

これまでのところ、次のことを試しました。

これはうまくいきますが、もっとうまくやれる気がします。明白な改善の 1 つは、関連する WikiData の部分をローカルにキャッシュすることです。これは私が計画しています。ただし、その前に、他の解決策があるかどうかを確認したいと思います。

提案？

タスクにSparkを使用しているため、質問に Scala のタグを付けました。

score 3 · Accepted Answer

いくつかの提案:

OpenNLP と比較してスタンフォード NER を検討し、コーパスでの比較を確認してください。
ほとんどのエンティティ名のステミングの価値について疑問に思います
タスクを個別の段階に分割することで、情報を失っているのではないかと思います
ウィキデータは新しいものですが、タスクはそうではないため、Freebase|DBpedia|Wikipedia エンティティ認識|曖昧さ回避に関する論文を参照してください。

特に、DBpedia Spotlight はまさにこのタスクのために設計されたシステムの 1 つです。

1 に答える 1