3

Perl を使用して、テキスト ブロックから名前 (珍しい名前を含む) を抽出する必要があります。名前を抽出するためにこのモジュールを調べましたが、1990 年までさかのぼって米国で人気のある名前と姓のトップ 1000 しかありません。もう少し包括的なものが必要です。

社会保障指数を使用して比較用のデータベースを作成することを検討しましたが、これは非常に面倒で処理が集中するようです。別の方法を使用して Perl から名前を取得する方法はありますか?

解析するテキストの例:

LADNIER
Louis Anthony Ladnier、[Louie] 48 歳、アラバマ州モービル出身、2012 年 11 月 16 日金曜日、自宅で死亡。Louie は
1964 年 1 月 9 日、アラバマ州モービルで生まれました。彼はジョン・E・ラドニエ・シニアとグロリア・ボザージ・ラドニエの息子でした。彼はマギルトゥーレン高校を卒業し、南アラバマ大学に通いました。彼は退職するまで、バイユー・ラ・バトル警察署の通信監督者として雇用されていました。
彼は父親のジョンに先立って死にました。母親のグロリア、甥のドミニク・ラドニエとクリスチャン・ルビオが生き残り、彼が愛し、自分の息子、姉妹のマージュ・ラドニエとモーガン・ゴーディ [ジュリアン]、兄弟のエディ・ラドニエ [シンディ]、甥のジェイミーとして育てました。ジョーイ、エディ、ウィル、ベン、そして姪たち、アンナとエリザベス。
追悼式は、水曜日の午後 1 時にモービルの聖ドミニコ教会で行われます。
セレニティ葬儀場が手配を担当しています。
花の代わりに、記念品を St. Dominic Sc​​hool, 4160 Burma Road Mobile, AL 36693, Education Fund for Christian Rubio and McGill-Toolen High School, 1501 Old Shell Road Mobile, AL 36604, Education Fund for Dominic Ladnier に送ることができます。
家族は、この期間中のすべての祈りと支援に感謝しています. ルイはロックであり、私たち全員にとって喜びでした.

4

5 に答える 5

1

Apache Foundation には、英語名の特定の事前トレーニング済みモデル (nameFinder) を使用したエンティティ抽出のトピックをカバーするプロジェクトがいくつかあります。openLNP または Stanbol をお勧めします。それまでの間、いくつかのクエリがある場合は、 http: //www.augmentedintel.com/apps/csharpnlp/extract-names-from-text.aspx のアプリ セクションに C# で実装した NLP があります。

一番、

ドン

于 2013-04-26T13:52:09.700 に答える
1

英語の性質上、これを確実に行う方法はありません。(ファジー) 比較するリストが必要になるか、かなりの精度のペナルティを受け入れる必要があります。

于 2012-11-30T18:38:14.777 に答える
0

あなたは次のようなGoogleをしたいと思います:

perl part of speech tagging
于 2012-11-30T21:20:10.723 に答える
0

名前付きエンティティの認識を実装しようとしています。悪いニュースは、それが本当に難しいということです。ただし、Lingua::EN::NamedEntityを試すこともできます。

$ perl -MLingua::EN::NamedEntity -nE 'say $_ for map { $_->{class} eq "person" ? $_->{entity} : () } extract_entities($_)' names.txt 
Louie
Louis Anthony Ladnier
Louie
John E
Bayou La Batre Police Department
Gloria
Julian
Cindy
Eddie Ladnier
Eddie
John
Catholic Church
Christian Rubio
Dominic Ladnier
Burma Road Mobile
Louie

自然言語処理用の Reuters Web サービスであるCalaisを使用することもできます。これにより、はるかに優れた結果が得られます。

カレー

于 2012-11-30T19:56:22.250 に答える