問題タブ [online-algorithm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - VowpalWabbit:違いとスケーラビリティ
入力セットのサイズが大きくなるにつれて、VowpalWabbitの「状態」がどのように維持されるかを確認しようとしています。通常の機械学習環境では、1000個の入力ベクトルがある場合、それらすべてを一度に送信し、モデル構築フェーズが完了するのを待ってから、モデルを使用して新しい予測を作成することを期待します。
VWでは、アルゴリズムの「オンライン」の性質により、このパラダイムがよりパフォーマンスが高く、リアルタイムで調整できるようになっているようです。
このリアルタイムモデル変更はどのように実装されますか?
VWは、時間の経過とともに入力データの合計サイズに関して増加するリソースを使用しますか?つまり、VWモデルにデータを追加すると(小さい場合)、特徴ベクトル入力の累積数が1000、10000、または数百万に増えると、リアルタイム調整の計算に時間がかかり始めますか?
data-mining - オンライン(一括処理ではなく)データマイニングパッケージ
「一括処理」とは、知識を抽出するために一度に処理されるファクトの静的データセット(CSVなど)を意味します。「オンライン」では、ライブバッキングストアを使用します。ファクトは発生時に追加され(「XはYを購入」)、クエリはこのライブデータで発生します(「今yを見ている人に何をお勧めしますか?」 )。
私はリアルタイムという用語を(誤)使用しましたが、結果が一定の時間内に発生する必要があるという意味ではありません。('''編集:リアルタイムを上記のオンラインに置き換えました''')
ライブデータを利用したレコメンデーションエンジンを考えています。ただし、私が遭遇したすべてのオンラインリソース(SOの質問など)では、リアルタイムと一括処理のデータマイニングパッケージを区別していません。私は個別に検索する必要がありました:
- Lucene / Solrおよびその他のライブデータセットから読み取るCarrot2(オンライン)
- 静的ファイルでスケジュールされた実行を行うKnime(バルク)
- Hadoop(および将来的にはPregelベースのGiraph)で実行されるMahout(オンライン?)
- Cassandraと統合する商用パッケージ(オンライン?)
オンラインデータマイニングパッケージとは何ですか?
文献がオンライン処理パッケージとバルク処理パッケージを区別しない理由はありますか?それとも、すべての実用的なデータマイニングは実際にはバルク操作ですか?
cluster-analysis - さまざまな次元でのクラスタリング
私のクラスタリングの問題では、ポイントが行き来するだけでなく、機能も削除または追加できます。私の問題に対するクラスタリングアルゴリズムはありますか?
具体的には、これらの種類のクラスタリング アルゴリズムの凝集階層クラスタリング バージョンを探しています。
java - 標準偏差を計算するためのオンライン アルゴリズム
通常、私はより技術的な問題を抱えていますが、ボールを数える例で簡単に説明します。
異なる色のボールと、各色用に予約された配列の 1 つのインデックス (すべて 0 に初期化) があるとします。ボールを選ぶたびに、対応するインデックスを 1 ずつ増やします。
ボールはランダムに選ばれ、一度に 1 つのボールしか選べません。私の唯一の目的は、ボールがなくなるまで、すべての色のボールの数を数えることです。
私はそれらを数えている間に、異なる色のボールの数の標準偏差を計算したいと思います. すべてのボールのカウントが完了した後、配列をもう一度反復する必要があるため、計算したくありません。
視覚化するには:
ランダムな順序のボール: BBGRRYYBBGGGGGGB
(各文字は色の最初の文字を表します) 0 から 3 までの配列インデックスは、それぞれ B、G、R、Y の色に対応します。ボールの選択が完了すると、配列は次のようになり[5,7,2,2]
ます。
最終的な配列を取得した後に標準偏差を計算するのは非常に簡単ですが、この配列を埋めている間に実行したいと思います。
Javaでやりたいのですが、約1000色あります。
それを実装する最も効率的な方法は何ですか?または、最終的な配列を手に入れる前にそれを行う方法さえありますか?
scikit-learn - sklearnを使用してビッグデータファイルにオンラインアルゴリズムを適用する可能性はありますか?
ビッグテキストコーパスに(オンライン/ミニバッチ)辞書学習などの高速オンライン次元削減手法を適用したいと思います。私の入力データは当然メモリに収まりません(これがオンラインアルゴリズムを使用したい理由です)ので、すべてをメモリにロードするのではなく、ファイルを反復処理できる実装を探しています。sklearnでこれを行うことは可能ですか?代替案はありますか?
ありがとう登録
recommendation-engine - レコメンデーションシステムの新しいデータをどのように処理しますか?
ここで理論的な質問です。ユーザーベースの CF とアイテムベースの CF ( Slope Oneの形式) の 2 種類の協調フィルタリングを実装したとします。
これらのアルゴリズムを実行するための優れたデータセットがあります。しかし、次の 2 つのことを行いたいと考えています。
- データ セットに新しい評価を追加したいと思います。
- 既存の評価を編集したい。
アルゴリズムはこれらの変更をどのように処理する必要がありますか (多くの不要な作業を行うことなく)。誰でもそれで私を助けることができますか?
python - ニューラル ネットワークは画面を認識し、限られた一連のアクションを再現できますか?
ニューラルネットワークはあらゆる機能を複製できることを学びました。
通常、ニューラル ネットワークには一連の記述子が入力ニューロンに供給され、出力ニューロンで特定のスコアが与えられます。ニューラル ネットワークに、画面からの特定の動作を認識させたいと考えています。画面上のオブジェクトは既に前処理されており、はっきりと見えるため、認識は問題になりません。
ニューラル ネットワークを使用して、画面のピクセル化された画像を認識し、それに基づいて決定を下すことは可能ですか? もちろん、トレーニングデータの量は膨大になります。オンライン教師あり学習によって ANN を教える方法はありますか?
編集:コメンターがプログラミングの問題が一般的すぎると言ったため:これを最初にPythonで実装して、機能するかどうかを確認したいと思います。Python でこのオンライン学習を行うことができるリソースを誰かが教えてくれたら、私は感謝します。