1

次のシナリオの例、ヒント、ガイダンスはありますか?

いくつかの異なるニュースWebサイトから更新を取得しました。次に、その情報を分析して、世界の現在の傾向を予測します。

上記のアイデアを検索したときにデータマイニングに関する情報しか見つかりませんでしたが、それはデータベースシステム用です。データマイニングは私がやろうとしていることと似ていますが、データベース情報のデータマイニングは、私がWebサイトから取得したものよりも具体的です。それで、誰かがこの側面について私を導くことができますか?私はあなたがこれに関して与えることができるどんな助けにも本当に感謝します。

ありがとう。

4

2 に答える 2

0

まず、過去のトレーニングデータが必要です。意味、古いニュースのコレクション、およびさまざまな時点で分析する傾向の状態。

次に、この情報を定量化する方法を決定する必要があります。トレンドが「売れた携帯電話」のようなものであれば、売れた携帯電話の数だけをとることができます。ニュースを定量化するのは難しいです。たとえば、トレーニングニュースで単語の頻度を測定し、頻度の最も低い単語を機能として使用できます(SPAMフィルターと同様)。

その後、これらの機能と過去の傾向について分類器をトレーニングします。良いものは「ランダムフォレスト」アルゴリズムです。これは実質的にパラメータがないためです。

この計画を実際に実施するには、多くの背景知識が必要になります。Hastie、Tibshirani、Friedmannによる「TheElementsofStatisticsLearning」は学ぶのに良い本です。著者のホームページから無料でダウンロードできます。

于 2009-11-28T22:43:31.353 に答える
0

データ抽出アルゴリズムを探している場合は、クラスター分析と「非負行列因子分解」を確認する必要があります。
それで一般的なトピックを抽出できます。そこから現在のトレンドを取得するのは比較的簡単です。
しかし、他のトピックのどれが(もしあれば)次のトレンドを得るだろうかは、魔法またはニューラルネットを必要とします。

于 2009-11-28T22:49:53.303 に答える