3

取得したデータセットに分類またはクラスタリングを適用するという決定の間に行き詰まっています。考えれば考えるほど、混乱してしまいます。これが私が直面していることです。

会社、投資、株式、経済、四半期収入などのニュースを含むニュースドキュメント(約3000、継続的に増加)を持っています。私の目標は、どのニュースがどの会社に対応するかがわかるようにニュースを並べ替えることです。たとえば、「Appleが新しいiphoneを発売する」というニュース項目の場合、Appleという会社をそれに関連付ける必要があります。特定のニュースアイテム/ドキュメントには「タイトル」と「説明」しか含まれていないため、ニュースが参照している会社を見つけるためにテキストを分析する必要があります。複数の会社の場合もあります。

これを解決するために、私はMahoutに目を向けました。

クラスタリングから始めました。クラスターのトップ用語として「Apple」、「Google」、「Intel」などを取得したいと思っていました。そこから、クラスター内のニュースがクラスターラベルに対応していることがわかりますが、状況は少し異なります。「投資」、「株式」、「通信」、「グリーンエネルギー」、「ターミナル」、「株式」、「ストリート」、「オリンピック」など、他の多くの用語を上位に挙げました(これはクラスタリングアルゴリズムとして意味があります)。 '一般的な用語を探します)。いくつかの「Apple」クラスターがありましたが、それに関連するニュース項目は非常に少なかったのですが、会社のニュースの多くは、特定の会社のクラスター(Apple)。

トレーニングデータが必要な分類について読み始めました。実際にニュース項目を「会社名」に「分類」したいので、名前も説得力がありました。読み進めていくうちに、名前の分類は少し騙されており、分類に比べて予測に多く使われている印象を受けました。私が得た他の混乱は、ニュース文書のトレーニングデータをどのように準備できるかということでした。興味のある企業のリストがあると仮定しましょう。分類器のトレーニングデータを生成するプログラムを作成します。プログラムは、ニュースのタイトルまたは説明に会社名「Apple」が含まれているかどうかを確認し、Appleに関するニュース記事を表示します。これはトレーニングデータを準備する方法ですか?(もちろん、トレーニングデータは実際には予測変数とターゲット変数のセットであることを読みました)。もしそうなら、では、そもそもなぜ象使い分類を使用する必要があるのでしょうか。mahoutを捨てて、代わりにトレーニングデータ用に作成したこの小さなプログラムを使用する必要があります(実際に分類を行います)

この問題に対処する方法について私がどれほど混乱しているかがわかります。もう1つ気になるのは、システムをこれほどインテリジェントにすることができれば、ニュースで「Apple」という言葉を使わずに「iPhoneの売り上げが過去最高」と表示された場合、システムはそれをAppleに関連するニュースとして分類できるということです。

私を正しい方向に向けてくれてありがとう。

4

2 に答える 2

3

メーリングリストからの返信のコピー:

分類器は教師あり学習アルゴリズムであるため、ポジティブクラスとネガティブクラスの例を多数提供する必要があります。あなたの例では、一連の記事に「Appleについて」というラベルを付けてから、TF-IDFから派生した特徴ベクトルを入力として使用し、これらのラベルを使用して、記事が「アップルについて」。

タイトルに「Apple」が含まれている場合はAppleに関するものであるという単純なルールに従って、ラベル付けによってトレーニングセットを自動的に生成することはあまりうまくいかないと思います。そうすれば、分類器をトレーニングしても意味がありません。タイトルに「Apple」が含まれているかどうかを確認するだけで、テストセットで100%の精度を達成する簡単な分類子を作成できます。はい、あなたは正しいです、これはあなたに何も得ません。

明らかに、分類子から微妙なことを学びたいので、「認知症のリスクを減らすことが示されているアップルジュース」というタイトルの記事は会社に関するものとして分類されません。あなたは本当にそれに手で分類された文書を供給する必要があるでしょう。

これは悪いニュースですが、この方法でN個のトピックのN個の分類器を確実にトレーニングできることを確認してください。

分類子は、アイテムをクラスに入れるかどうかを決定します。これらは、入力の連続値を予測する回帰手法と同じではありません。それらは関連していますが、明確です。

クラスタリングには、教師なしであるという利点があります。ラベルは必要ありません。ただし、結果のクラスターは、記事のトピックの概念と一致することが保証されていません。たくさんのAppleの記事、iPodに関するものだけでなく、Samsungやラップトップ全般に関する記事もあるクラスターが表示される場合があります。これがあなたの問題に最適なツールではないと思います。

于 2012-08-01T19:13:28.870 に答える
1

まず第一に、あなたは象使いを必要としません。3000のドキュメントはほとんどありません。百万に達したときにマハウトを再訪してください。私は1台のコンピューターで100.000枚の画像を処理しているので、今のところMahoutのオーバーヘッドをスキップできます。

あなたがやろうとしていることは、私には分類のように聞こえます。事前定義されたクラスがあるためです。

クラスタリングアルゴリズムは教師なしです。(パラメータをオーバーフィットしない限り)Appleを「iPad/iPhone」と「Macbook」に分割する可能性があります。またはその一方で、AppleとGoogleは密接に関連しているため(たとえば、AppleとFordよりもはるかに多い)、AppleとGoogleを統合する可能性があります。

はい、測定したい構造を反映したトレーニングデータが必要です。他の構造もあります(たとえば、iPhoneはMacbookと同じではなく、Google、Facebook、AppleはKellogs、Ford、Appleよりも類似した会社です)。会社レベルの構造が必要な場合は、この詳細レベルのトレーニングデータが必要です。

于 2012-08-01T23:07:35.237 に答える