0

機械学習は初めてです。機械学習の概念を適用する必要があるプロジェクトに取り組んでいます。

問題文:

多数 (たとえば 3000) のキーワードがあります。これらは 7 つの固定カテゴリに分類する必要があります。各カテゴリにはトレーニング データ (サンプル キーワード) があります。アルゴリズムを用意する必要があります。新しいキーワードがそれに渡されると、このキーワードが属するカテゴリを予測する必要があります。

これにどのテキスト分類手法を適用する必要があるかはわかりません。使用できるツールはありますか。

助けてください。

前もって感謝します。

4

5 に答える 5

0

これは線形分類に分類されます。これには単純ベイズ分類器を使用できます。ほとんどの ml フレームワークには、naive-bayes の実装があります。例: 象使い

于 2014-11-18T19:52:06.637 に答える
0

分類器を使用する場合でも、実際に役立つ分類器を構築して検証するのは何らかの操作です。課題の 1 つは、混合することです。

  • 離散(ブール値で列挙可能)
  • および連続(「数字」)

予測変数をシームレスに。一般に、アルゴリズムによる前処理が必要です。

ニューラル ネットワークは、両方のタイプの変数を使用する可能性を提供します。ただし、優れた結果を得るには熟練したデータ サイエンティストが必要です。簡単なオプションは、 Insight Classifiersのようなオンライン分類子 Web サービスを使用して、分類子を一度に構築して検証することです。そこでは N 分割交差検証が使用されています。

各単語の有無を別の列で表すことができます。結果変数は目的のカテゴリです。

于 2020-07-09T22:28:01.077 に答える
0

各カテゴリの説明とデータセット内のキーワードの間に Word2Vec Word Cosine 距離を使用し、各キーワードを最も近い距離のカテゴリに単純に一致させることができます

または、すでに一致しているカテゴリ、キーワードからトレーニング データセットを作成し、モデルへの入力として各カテゴリへのキーワードの余弦距離のベクトルを使用する人工ニューラル ネットワークに基づいて、任意の ML 分類器を使用することもできます。ただし、トレーニングで十分な精度を達成するには、大量のデータが必要になる場合があります。たとえば、MNIST データセットには 70000 のサンプルが含まれており、単純な CNN で 99.62% のモデルのクロス検証精度に到達できました。2000 サンプルしかない別のデータセットでは、約 90% の精度しか達成できませんでした。

于 2017-07-15T11:26:55.140 に答える