問題タブ [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ssas - SSAS で単純ベイズ分類子を実装する方法を学習するための最適なリソースは何ですか?
この質問をした後、SQL Server Analysis Services を使用して Naive Bayes Classifiers をいくつか試して実装することにしました。
SSASに単純ベイズ分類器を実装する方法について、まともな本、Webサイト、またはその他のリソースを誰かに教えてもらえますか? 同様に、ディシジョン ツリーについても学びたいと思います。
python - 不規則にサンプリングされた時間データの平滑化
最初の列が特定の基準点を過ぎた秒数で、2 番目の列が任意の測定値であるテーブルを考えると、次のようになります。
ご覧のとおり、測定値は不規則な時点でサンプリングされています。各測定の 100 秒前に (Python で) 読み取り値を平均化して、データを平滑化する必要があります。データ テーブルは非常に大きいため、イテレータ ベースの方法が実際に推奨されます。残念ながら、2 時間のコーディングを行っても、効率的で洗練されたソリューションを見つけることができません。
誰でも私を助けることができますか?
編集_
生の読み取り値ごとに 1 つの平滑化された読み取り値が必要です。平滑化された読み取り値は、前の 100 (デルタ) 秒の生の読み取り値とその他の値の算術平均になります。(ジョン、あなたは正しい)
巨大な ~ 1e6 ~ 10e6 行 + タイトな RAM で動作する必要がある
データはほぼランダムウォークです
データはソートされています
解像度
J Machin と yairchu によって提案されたソリューションをテストしました。どちらも同じ結果でしたが、私のデータ セットでは、J Machin のバージョンは指数関数的に実行されましたが、yairchu のバージョンは線形でした。以下は、IPython の%timeit (マイクロ秒単位) で測定された実行時間です。
助けてくれてありがとう。
mysql - 「the」または「and/&」のあいまいさを先頭に追加するmysql検索
別のソースからのデータを照合するために、2 つの異なるデータベース間で mysql でタイトル検索を実行しようとしています。db1 と db2 の両方で、タイトルは、一方のデータベースでは「最初のタイトル」で始まり、もう一方のデータベースでは「最初のタイトル」だけで始まるか、「遠く離れて」対「遠く離れて」になることがあります。
Mysql の全文検索は、これを理解するのにあまり効果的ではないようです。私は現在、「WHERE title1=title2」という単純な一致のみを行っていますが、これはもちろん、タイトルにわずかな違いがある接続を見逃しています。
私が思いついた唯一の解決策は、タイトルのいずれかに「the」または「&」が含まれているかどうかを確認する一連の if ステートメントを実行することです。
これは恐ろしい方法ではありませんが、これらの問題を処理するクエリを作成するためのより効率的な方法があると思います。
何か案は?これまでのところ、私のオンライン検索は役に立ちませんでした。ありがとう
data-mining - データマイニングとビジネスインテリジェンステクノロジー
データ マイニングやビジネス インテリジェンス テクノロジの経験を求める仕事が増えていることに気付きました。これは信じられないほど広いトピックのように聞こえますが、インタビューで取り上げられた場合、このことについて少なくとも部分的な理解を深めたい場合、どこに行きますか?
data-mining - 開発者の観点から見たデータマイニングとは何ですか?
本やウィキペディアでデータマイニングの技術的な説明を見つけることができますが、それは正確にどのような開発を伴うのでしょうか?それはツールの使用に関するものですか、それともツールの作成に関するものですか?研究開発に関しては、他のドメインと本当に大きな違いがありますか?
c# - さまざまなニュース ソースをデータ マイニングするにはどうすればよいですか?
私は、1 日のトップ ニュース記事を分析し、統計情報を提供する無料の Web アプリケーションに取り組んでいます。ほとんどのニュース Web サイトは RSS フィードを提供しています。ただし、ニュース Web サイト自体から完全なニュース記事を取得しようとすると、問題が発生します。現時点では、ソース (CNN、NY Times など) ごとに個別のNewsSourceクラスがあり、適切な RSS フィードを読み取り、各リンクをたどり、本文を取り除きます。ニュース Web サイトが記事の HTML 構造を変更することを決定した場合、これは面倒で非常に扱いにくいように思えます。
複数のニュースソースを(要約だけでなく) 記事の全内容と既に集約しているサービス (できれば無料) はありますか? そうでない場合、予告なしに変更される可能性がある異なる HTML 構造を持つ複数のソースを処理するための提案はありますか?
java - Java データマイニング (JDM) とは?
私はJDMを見ています。これは、実際のデータ マイニングを行う他のツールと対話するための単なる API ですか? それとも、実際のデータ マイニング アルゴリズムを含む一連のパッケージですか?
ruby-on-rails - 選択した一連のカテゴリのアイテム カウンターの計算
私たちの Ruby on Rails プロジェクトでは、調理方法、機会など、レシピの分類基準が多数あります。すべてのレシピは、これらのカテゴリの 1 つまたは複数に属しています。誰かがレシピの閲覧を開始すると、特定のカテゴリのセットに絞り込むことができます。次に、このセットからアクセスできるすべてのカテゴリのレシピの数を計算する必要があります (「アクセス可能」とは、選択したカテゴリにも属するそのカテゴリにレシピがあることを意味します)。これは、Amazon の検索の仕組みと似ています。誰かが「ソフトウェア」と入力すると、左側に「本 (200)」、「映画 (300)」などのメニューが表示されるので、ユーザーはこれらのリンクをクリックすることでさらに深く掘り下げることができます。
現在、大まかに次のように実装しています。
- URL から選択したカテゴリのセットを作成します。
- 現在選択されている基準に該当するすべてのレシピからカテゴリ ID を取得するクエリを実行します。
- すべてのカテゴリ ID をレシピのカウントにマップするインデックスを構築し、ゼロ以外のカウンターを持つものだけをレンダリングします。
- このインデックスは memcached に 24 時間保存されるため、特定のページについて 1 日に 1 回だけ計算されます。
私の懸念は、キャッシュ ミスがあると、インデックスの構築に時間がかかることです。この問題を解決する方法、または現在のソリューションを改善する方法について何か提案はありますか?
data-mining - Netflixのようなコンテスト
Netflixプライズに似たコンテストやタスクについて知っている人はいますか?それはお金だけでなく、データの次元、挑戦的なタスクとの強いつながりについてもです。
open-source - オープンソースのデータ マイニング ソフトウェア
私は考えていた; 非バイナリ アソシエーション ルールの生成に使用できる最高のオープン ソース ソフトウェアは何ですか。現在の非バイナリ データをバイナリ データに変換しても目的の結果が得られないため、非バイナリの実装が必要です。
コメントをお待ちしております。