問題タブ [unsupervised-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - ニュース記事のクラスタリング
私のシナリオはかなり単純明快です。私はいくつかのニュース記事 (現時点で最大 1,000 件) を持っており、それらのいくつかは同じストーリー/トピックを扱っていることがわかっています。ここで、これらの記事を共通のストーリー/トピックに基づいて、つまり類似性に基づいてグループ化したいと思います。
これまでに行ったことは、ストップワードの削除やステミングなどの基本的な NLP 手法を適用することです。また、各記事の tf-idf ベクトルも計算しました。これにより、これらの tf-idf ベクトルに基づいて、たとえばコサイン類似度を計算することもできます。しかし、記事のグループ化に少し苦労しています。それを行うには、おそらく関連する2つの主要な方法があります。
1) 機械学習 / クラスタリング: 既存のクラスタリング ライブラリで少し遊んでみましたが、多かれ少なかれ成功しています。ここを参照してください。一方では、k-means などのアルゴリズムは入力としてクラスターの数を必要としますが、これはわかりません。他のアルゴリズムも直感的に指定できないパラメーターを必要とします (私にとってはそうです)。
2) グラフ アルゴリズム: 記事がノードであり、記事間のペアワイズ (コサイン) 類似性を表す加重エッジを使用して、データをグラフとして表すことができます。これにより、たとえば、最初に特定のしきい値を下回るすべてのエッジを削除してから、グラフ アルゴリズムを適用して強く接続されたサブグラフを探すことができます。
要するに、ここからどこへ行くのが最善なのかわかりません。私はこの分野ではまだかなり新しいです。そのためのベストプラクティスや、特定のシナリオでメソッド/アルゴリズムを適用できる (できない) ガイドラインがあるのではないかと思います。
(編集:私の関連する質問へのリンクを忘れていました)
python - pylearn2 の教師なし学習から学習したデータの表現を取得する
以下の YAML ファイルを (pylearn2/scripts/train.py と共に) 使用して、pylearn2 でオートエンコーダーをトレーニングできます。
得られるのは、「dae_l1.pkl」として学習されたオートエンコーダ モデルです。
このモデルを教師付きトレーニングに使用する場合は、「dae_l1.pkl」を使用して MLP のレイヤーを初期化できます。その後、このモデルをトレーニングできます。「fprop」関数を使用して、モデルの出力を予測することもできます。
しかし、この事前トレーニング済みモデルを教師あり学習に使用したくなくて、新しく学習したデータの表現をオートエンコーダーで保存したい場合はどうすればよいでしょうか。
これどうやってするの?
さらに詳しい質問はこちら
classification - 結果に最も影響を与える属性を決定する
次のように、.csv 形式のデータセットがあります。
最初の列では、全体の成績について説明しています。
これに続いて、6 教科の各生徒の採点が行われます。
とにかく、被験者が全体的な結果に違いをもたらすパフォーマンスを見つけることができますか?
私は Weka を使用しており、J48 を使用してツリーを構築していました。
J48 分類子の概要は次のとおりです。
また、useEqualFrequency を true に設定して、マーク データを 10 個のビンに離散化しました。J48の概要は次のとおりです。
machine-learning - kmeans は反復可能ですか?
最初の重心点がランダムに選択されている場合、まったく同じデータセットに対してほぼ同じ重心点が得られるかどうかを知りたかったのです。
テスト用の kmeans プログラムを書いていますが、それらが一致していないようです。自分のしていることが正しいかどうか知りたかった。
artificial-intelligence - まれに発生するイベントのための教師なし深層人工ニューラル ネットワーク分類器
大規模なデータセットから高次の特徴を検出するために、教師なしの深層人工ニューラル ネットワークを構築してトレーニングしました。
データは毎日の気象測定値で構成されており、ディープ ネットの最後の層の出力は 4 ニューロン幅であり、うまくいけば高次の特徴を表します。ここで、非常にまれなイベント (竜巻など) の確率を検出したいと考えています。竜巻を引き起こしたデータポイントを選び出しましたが、データポイントについては非常に少ないです10,000 out of 5,000,000
。
- 10,000 個のデータ ポイントのみで構成されたトレーニング セットを作成し、
tornado
毎回 1 個の出力を希望しますか? - 5,000,000 個のデータ ポイントすべてで構成されるトレーニング セットを作成し、竜巻がない場合は目的の出力 0 を、竜巻がある場合は 1 を出力しますか? しかし、それはおそらく竜巻を予測することはできません.
- 他の解決策?
machine-learning - 教師あり学習は分類と同義であり、教師なし学習はクラスタリングと同義ですか?
私は機械学習の初心者で、最近、教師ありおよび教師なし機械学習について読みました。教師あり学習は分類と同義であり、教師なし学習はクラスタリングと同義のように見えますが、そうですか?