テキストの例の非常に短いバーストから名前と場所を抽出しようとしています
「トロントの枢機卿対ジェイズ」 「ダニエル・ネスターとネナド・ジモンジッチがヨナス・ビョークマンとケビン・ウリエットを演じ、パリの時間は発表される」 「ジェンソンバトン-ポールポジション、ブラウン-メルセデス-モナコ」。
このデータは現在MySQLデータベースにあり、名前のつづりが間違っているなどの場合もありますが、私は(ほとんど)アスリートごとに個別のレコードを持っています。
選手と場所を抽出したいと思います。私は通常PHPで作業していますが、エンティティ抽出用のライブラリを見つけることができませんでした(将来、NLPとMLについてさらに深く知りたいと思うかもしれません)。
私が見つけたものから、LingPipeとNLTKが最も推奨されているようですが、どちらが本当に私の目的に合っているのか、それとも他の何かがより良いのかはわかりません。
私はJavaとPythonのどちらでもプログラミングしていないので、新しい言語を学び始める前に、どのルートをたどるべきか、またはその他の推奨事項についてアドバイスをもらいたいと思っています。