私の問題は、テーブル内のすべての人の名前を除外することです。つまり、会社、学校、機関の名前がデータベースに残されます。
会社や学校などの名前のリストが与えられるという簡単な解決策を試してみました。そこで最も一般的な用語を検索しました。(注: コストがかかるため、名前に含まれる一般的な文字列は検索しませんでした)。これらの用語と、最も一般的な部分文字列に重みを割り当てました。そのため、文字列に corp, inc, school, univ が含まれている場合、それが人の名前ではない可能性が非常に高くなります。
さて、問題はどうやってAI化するかです。また、企業のみ、学校のみなどの分類がしやすいようにしないといけません。
例えば
XYZ Brewery Corporation -> company
Harvard University -> school
Department of Health -> government agency
私が知っている唯一の AI 技術は、単純ベイズ、K-Means、階層型、FCM、ANN です。そういう技は普通に数値が出るので、どうやってAI化したらいいのかわからない。私が知っている、文字列を広範囲に処理する AI 技術は、レーベンシュタイン、ステミング、Needleman-Wunch、および Jaro-Winkler だけです。
私の最初のアプローチは間違っていますか?知っているテクニックをどのように組み込むことができますか? 新しい技術を学ばなければなりませんか?私はまだ学生なので、基本的にAIは初めてです。ただし、これは割り当てではなく、会社のプロジェクトのためです (実際、私はグループで唯一のコンピューター サイエンス専攻なので、非常に負担が大きくなります)。ちなみに、私が使用している言語が気になる場合は、C# を使用しています。これは、スタンドアロン アプリケーションにする予定であり、ユーザーは Windows を使用しているためです。