大量のテキスト データをインポートして分類する手段を探しているクライアントがいます。このデータは分類する必要があり、これを行う最も簡単な方法は、説明フィールドを見て、そこに保持されている単語と一致させて、その特定のレコードからカテゴリを導出できるかどうかを確認することであると提案されています。
これを行う最善の方法は、単語を各カテゴリに対して保持されているキーワードに一致させることであり、それが失敗した場合は、代わりにこれを使用できるかどうかを確認するために何らかの同義語ルックアップを使用することであると考えられました. したがって、たとえば、特定のレコードに「automobile」という単語が含まれている場合、同義語の検索では、その単語が「car」という単語に一致し、カテゴリ「vehicle」に対して保持される可能性があります。
特定の単語の同義語を見つけるために辞書を検索する Web サービスまたはその他の手段を知っている人はいますか? プロジェクト マネージャーは、このために Google Enterprise Search ライセンスを購入することを提案しましたが、私が知る限り、それは彼らが探しているものを提供していません。
クライアントが探しているものをクライアントに提供するための他の提案は、感謝して受け入れられます。
ありがとう!ワードネットについて調べてみます。
他の種類のテキスト分類ソフトウェア製品を知っていますか? これにベイジアンアルゴリズムを使用することについていくつかの議論があるようですが、実際の例は見当たりません。