問題
文字列を受信しており、会社名または個人名のいずれかを表す場合があります。これを決定するには、ヒューリスティックが必要です。
最初の考え
ノードCommercialString/CommercialまたはPersonalString/ Personalおよびスコア一致文字列+1のいずれかでXMLドキュメントを使用します(申し訳ありませんが、SOでXMLをフォーマットする方法がわかりません)
適切な名詞を確認するだけでは不十分です。IE Bob's Companyは、BobComptonが名前である会社です。
何らかの形式で信頼水準を返す必要があります。パーセンテージでそれを行う方法を考えることはできません。私が考えることができるのは、整数を使用して一致するものが見つかった場合だけです。
可能なコマーシャル(すべて小文字に変換されます):co、co。、inc、inc。など(それぞれの逐語的なバージョン)
オンラインから英語の名前リストを入手できます
質問
誰かが以前にこの種のドメインの問題に遭遇したことがありますか?どのような方法を使用しましたか?これを解決する派手な方法はありますか?
ありがとうございました。