1

問題

文字列を受信して​​おり、会社名または個人名のいずれかを表す場合があります。これを決定するには、ヒューリスティックが必要です。

最初の考え

  • ノードCommercialString/CommercialまたはPersonalString/ Personalおよびスコア一致文字列+1のいずれかでXMLドキュメントを使用します(申し訳ありませんが、SOでXMLをフォーマットする方法がわかりません)

  • 適切な名詞を確認するだけでは不十分です。IE Bob's Companyは、BobComptonが名前である会社です。

  • 何らかの形式で信頼水準を返す必要があります。パーセンテージでそれを行う方法を考えることはできません。私が考えることができるのは、整数を使用して一致するものが見つかった場合だけです。

  • 可能なコマーシャル(すべて小文字に変換されます):co、co。、inc、inc。など(それぞれの逐語的なバージョン)

  • オンラインから英語の名前リストを入手できます

質問

誰かが以前にこの種のドメインの問題に遭遇したことがありますか?どのような方法を使用しましたか?これを解決する派手な方法はありますか?

ありがとうございました。

4

2 に答える 2

1

私はこれまでこれを行ったことがありませんが、他のいくつかの考え:

不適切な名詞(「and」、「the」、「piping」など)を確認します。実際、英語の辞書と名前のリストがある場合、名前ではない単語は会社名への良いポインタになる可能性があります。

大きな問題は、一部の企業が単に人にちなんで名付けられていることです。「フレッドメイヤー」、「JCペニー」、「ロッキードマーティン」は、人間の名前にそっくりな企業の例です。これを回避するための本当に良い方法はおそらくありません(おそらくとにかく簡単なことは何もありません)。名と姓を分類できる場合は、二重姓または姓のみが確実性を低下させる正当な理由になる可能性があります。

私はあなたの整数の考えに同意します。非常に広範で徹底的なテストを実行できない限り、パーセンテージはおそらく無意味です。私はおそらくすべてのテスト(名前、会社、または不明を返す)を実行し、結果を比較して、結果の一貫性に基づいて整数を合計します。

于 2011-01-21T20:33:29.380 に答える
1

既知の会社名のデータベースと比較できますか?

例:英国:http ://wck2.companieshouse.gov.uk

もちろん、これが実際に誰かの名前である場合は役に立ちませんが、同じ名前の会社があります。

于 2011-02-14T18:45:53.657 に答える