オブジェクト(この場合はiTunes App Storeのアプリケーション)の長いリストを取得して、より具体的に分類しようとしています。たとえば、現在「教育」に分類されているアプリケーションはたくさんありますが、生物学、英語、数学などのラベルを付けたいと思います。
これはAI/機械学習の問題ですか?私はその分野のバックグラウンドをまったく持っていませんが、この種のことをどこから始めるべきかについてのリソースやアイデアが欲しいです。
オブジェクト(この場合はiTunes App Storeのアプリケーション)の長いリストを取得して、より具体的に分類しようとしています。たとえば、現在「教育」に分類されているアプリケーションはたくさんありますが、生物学、英語、数学などのラベルを付けたいと思います。
これはAI/機械学習の問題ですか?私はその分野のバックグラウンドをまったく持っていませんが、この種のことをどこから始めるべきかについてのリソースやアイデアが欲しいです。
はい。それで合っています。分類は機械学習の問題であり、テキスト データに基づいて分類するには自然言語処理が必要です。
標準的な分類の問題は、単純ベイズ分類器を使用したスパム検出であり、非常に単純です。考え方は次のとおりです。
Python 機械学習および nlp ライブラリである NLTK を試してみることを強くお勧めします。非常にユーザーフレンドリーで、優れたドキュメントとチュートリアルがあり、この分野に慣れるための良い方法です。
編集:コードを使用して単純な NB 分類子を作成する方法の説明を次に示します。
おそらくそうではありません。使用可能な形式 (名前など) でデータを抽出するには、かなりの作業を行う必要があります。また、結局のところ、カテゴリのリストを手動で特定する方が簡単なカテゴリがほとんどない可能性があります。各カテゴリのキーワードと、タイトル/説明でパーサーを緩く設定します。
たとえば、半ダースの生物学アプリを調べて、名前/説明/アクセスできるものに「細胞」、「生命」、「成長」という言葉がかなり頻繁に表示されることに気付くことができます-結果としてではありませんいくつかの機械学習の結果ですが、あなた自身の人間の直感の結果です。そこで、これらの単語を含むすべてを生物学アプリとして分類するパーサーを作成し、他のカテゴリについても同様のことを行います。
iTunes アプリ ストア全体を分類しようとしている場合を除き、それで十分であり、複数の分類があるアプリや分類がないアプリを手動でチェックするのは比較的小さな作業です。機械学習は 100% 正確ではないため、単純なパーサーの使用 + 異常の手動チェックに伴う労力は、機械学習を支援するためのより複雑なパーサーの構築、機械学習のセットアップ、およびすべての再チェックに伴う労力よりもおそらくはるかに少ないでしょう。 .