取得したデータセットに分類またはクラスタリングを適用するという決定の間に行き詰まっています。考えれば考えるほど、混乱してしまいます。これが私が直面していることです。
会社、投資、株式、経済、四半期収入などのニュースを含むニュースドキュメント(約3000、継続的に増加)を持っています。私の目標は、どのニュースがどの会社に対応するかがわかるようにニュースを並べ替えることです。たとえば、「Appleが新しいiphoneを発売する」というニュース項目の場合、Appleという会社をそれに関連付ける必要があります。特定のニュースアイテム/ドキュメントには「タイトル」と「説明」しか含まれていないため、ニュースが参照している会社を見つけるためにテキストを分析する必要があります。複数の会社の場合もあります。
これを解決するために、私はMahoutに目を向けました。
クラスタリングから始めました。クラスターのトップ用語として「Apple」、「Google」、「Intel」などを取得したいと思っていました。そこから、クラスター内のニュースがクラスターラベルに対応していることがわかりますが、状況は少し異なります。「投資」、「株式」、「通信」、「グリーンエネルギー」、「ターミナル」、「株式」、「ストリート」、「オリンピック」など、他の多くの用語を上位に挙げました(これはクラスタリングアルゴリズムとして意味があります)。 '一般的な用語を探します)。いくつかの「Apple」クラスターがありましたが、それに関連するニュース項目は非常に少なかったのですが、会社のニュースの多くは、特定の会社のクラスター(Apple)。
トレーニングデータが必要な分類について読み始めました。実際にニュース項目を「会社名」に「分類」したいので、名前も説得力がありました。読み進めていくうちに、名前の分類は少し騙されており、分類に比べて予測に多く使われている印象を受けました。私が得た他の混乱は、ニュース文書のトレーニングデータをどのように準備できるかということでした。興味のある企業のリストがあると仮定しましょう。分類器のトレーニングデータを生成するプログラムを作成します。プログラムは、ニュースのタイトルまたは説明に会社名「Apple」が含まれているかどうかを確認し、Appleに関するニュース記事を表示します。これはトレーニングデータを準備する方法ですか?(もちろん、トレーニングデータは実際には予測変数とターゲット変数のセットであることを読みました)。もしそうなら、では、そもそもなぜ象使い分類を使用する必要があるのでしょうか。mahoutを捨てて、代わりにトレーニングデータ用に作成したこの小さなプログラムを使用する必要があります(実際に分類を行います)
この問題に対処する方法について私がどれほど混乱しているかがわかります。もう1つ気になるのは、システムをこれほどインテリジェントにすることができれば、ニュースで「Apple」という言葉を使わずに「iPhoneの売り上げが過去最高」と表示された場合、システムはそれをAppleに関連するニュースとして分類できるということです。
私を正しい方向に向けてくれてありがとう。