5

大量のテキスト データをインポートして分類する手段を探しているクライアントがいます。このデータは分類する必要があり、これを行う最も簡単な方法は、説明フィールドを見て、そこに保持されている単語と一致させて、その特定のレコードからカテゴリを導出できるかどうかを確認することであると提案されています。

これを行う最善の方法は、単語を各カテゴリに対して保持されているキーワードに一致させることであり、それが失敗した場合は、代わりにこれを使用できるかどうかを確認するために何らかの同義語ルックアップを使用することであると考えられました. したがって、たとえば、特定のレコードに「automobile」という単語が含まれている場合、同義語の検索では、その単語が「car」という単語に一致し、カテゴリ「vehicle」に対して保持される可能性があります。

特定の単語の同義語を見つけるために辞書を検索する Web サービスまたはその他の手段を知っている人はいますか? プロジェクト マネージャーは、このために Google Enterprise Search ライセンスを購入することを提案しましたが、私が知る限り、それは彼らが探しているものを提供していません。

クライアントが探しているものをクライアントに提供するための他の提案は、感謝して受け入れられます。


ありがとう!ワードネットについて調べてみます。

他の種類のテキスト分類ソフトウェア製品を知っていますか? これにベイジアンアルゴリズムを使用することについていくつかの議論があるようですが、実際の例は見当たりません。

4

3 に答える 3

7

最初に頭に浮かぶのはWordnetです。Wordnet は、類義語を含む、人間が生成した単語と関連単語のデータベースです。ウィキペディアの Wordnet エントリには、Wordnet へのいくつかのインターフェイスがリストされています。それらのいくつかはWebサービスだと思います。自分で巻くこともできます。Manning と Schutze の第 5 章 (無料の PDF)は、これを行う方法を示しています。

そうは言っても、あなたは正しい問題を解決していますか?カテゴリ リストはどのように作成しますか? ヒエラルキーですか?タグクラウド?階層カテゴリの批判については、Clay Shirky の Ontology is Overratedを参照してください。単一の単語ではなく一連の単語 (たとえば、単純ベイズ) に基づいて分類する場合、類義語はそれほど重要ではないと思います。

于 2009-07-01T07:45:47.557 に答える
1

WordNet の使用を検討する必要があります。詳細については、 Web サイトhttp://wordnet.princeton.edu/にアクセスしてください。ただし、多くの言語でそれらを統合するためのライブラリが用意されています。

オンライン ツールにアクセスして、実際の使用方法を確認してください: http://wordnetweb.princeton.edu/perl/webwn . 単語を調べて、各定義の横にある「S」をクリックすると、その定義に意味的に関連する単語のリストが表示されます。

また、「ドキュメント クラスタリング」を実行できるソフトウェアもチェックする必要があると思います。以下に例を示します: http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview . これは、カテゴリ作成プロセスをブートストラップするのに役立ちます。

これは、あなたが望むものに向かって長い道のりを歩むのに役立つと思います!

于 2009-07-01T07:46:22.267 に答える
0

テキストの分類については、Apache Mahoutをご覧ください。

于 2009-07-06T13:39:20.927 に答える