長い単語リストのテキスト分類を実装する必要があります。いくつかのカテゴリを定義しました。たとえば、「UK」という単語がリストにある場合、「地域」の下に表示されます。単語が「ピザ」の場合、カテゴリ「食品」に分類されます。
単語をさまざまなカテゴリに分類するにはどうすればよいですか? それを行うために利用できるオープンソースツールはありますか?
長い単語リストのテキスト分類を実装する必要があります。いくつかのカテゴリを定義しました。たとえば、「UK」という単語がリストにある場合、「地域」の下に表示されます。単語が「ピザ」の場合、カテゴリ「食品」に分類されます。
単語をさまざまなカテゴリに分類するにはどうすればよいですか? それを行うために利用できるオープンソースツールはありますか?
あなたが何をしようとしているのか完全にはわかりませんが、いくつかのカテゴリの代表的な単語のリストを作成することが必要な場合は、ストップワードを除いて、最も頻繁に使用される上位 N の単語を選択することでこれを行うことができます。各カテゴリを代表するドキュメントのセットから。これは、非常に基本的なオントロジーを作成する簡単な方法です。
たとえば、食べ物に関する一連の単語を作成するには、Web をクロールしてレシピとメニューを検索し、これらから最も頻繁に使用される単語を選択します。ストップ ワードを除外すると、食品に関連する単語の適切なリストが得られると思います。プログラミングに関連する単語については、 stackoverflow.comなどをクロールできます。
繰り返しますが、これはあなたがやろうとしていることではないかもしれません...