6

テキストの例の非常に短いバーストから名前と場所を抽出しようとしています

「トロントの枢機卿対ジェイズ」
 「ダニエル・ネスターとネナド・ジモンジッチがヨナス・ビョークマンとケビン・ウリエットを演じ、パリの時間は発表される」
「ジェンソンバトン-ポールポジション、ブラウン-メルセデス-モナコ」。

このデータは現在MySQLデータベースにあり、名前のつづりが間違っているなどの場合もありますが、私は(ほとんど)アスリートごとに個別のレコードを持っています。

選手と場所を抽出したいと思います。私は通常PHPで作業していますが、エンティティ抽出用のライブラリを見つけることができませんでした(将来、NLPMLについてさらに深く知りたいと思うかもしれません)。

私が見つけたものから、LingPipeNLTKが最も推奨されているようですが、どちらが本当に私の目的に合っているのか、それとも他の何かがより良いのかはわかりません。

私はJavaとPythonのどちらでもプログラミングしていないので、新しい言語を学び始める前に、どのルートをたどるべきか、またはその他の推奨事項についてアドバイスをもらいたいと思っています。

4

1 に答える 1

4

あなたが説明しているのは、エンティティ認識という名前です。したがって、このトピックに関する他の質問をまだ見ていない場合は、チェックすることをお勧めします。これは私にとって最も有用な答えのように見えます。

NLTKとLingPipeのどちらがこのタスクに最適かについてはコメントできませんが、回答を見ると、Javaで記述された他のリソースがかなりあるように見えます。

NLTKを使用する利点の1つは、Pythonが言語として非常にアクセスしやすいことです。もう1つの利点は、NLTKブック(無料で入手可能)がPythonとNLTKの両方を同時に紹介していることです。これは便利です。

于 2009-11-02T16:43:00.470 に答える