0 投票する

1 に答える

461 参照

ssas - SSAS で単純ベイズ分類子を実装する方法を学習するための最適なリソースは何ですか?

この質問をした後、SQL Server Analysis Services を使用して Naive Bayes Classifiers をいくつか試して実装することにしました。

SSASに単純ベイズ分類器を実装する方法について、まともな本、Webサイト、またはその他のリソースを誰かに教えてもらえますか? 同様に、ディシジョンツリーについても学びたいと思います。

2009-06-19T20:51:03.280

0 投票する

8 に答える

4039 参照

python - 不規則にサンプリングされた時間データの平滑化

最初の列が特定の基準点を過ぎた秒数で、2 番目の列が任意の測定値であるテーブルを考えると、次のようになります。

ご覧のとおり、測定値は不規則な時点でサンプリングされています。各測定の 100 秒前に (Python で) 読み取り値を平均化して、データを平滑化する必要があります。データテーブルは非常に大きいため、イテレータベースの方法が実際に推奨されます。残念ながら、2 時間のコーディングを行っても、効率的で洗練されたソリューションを見つけることができません。

誰でも私を助けることができますか？

編集_

生の読み取り値ごとに 1 つの平滑化された読み取り値が必要です。平滑化された読み取り値は、前の 100 (デルタ) 秒の生の読み取り値とその他の値の算術平均になります。（ジョン、あなたは正しい）
巨大な ~ 1e6 ～ 10e6 行 + タイトな RAM で動作する必要がある
データはほぼランダムウォークです
データはソートされています

解像度

J Machin と yairchu によって提案されたソリューションをテストしました。どちらも同じ結果でしたが、私のデータセットでは、J Machin のバージョンは指数関数的に実行されましたが、yairchu のバージョンは線形でした。以下は、IPython の%timeit (マイクロ秒単位) で測定された実行時間です。

助けてくれてありがとう。

python datetime data-mining smoothing

2009-06-21T11:36:57.383

0 投票する

1 に答える

53 参照

mysql - 「the」または「and/&」のあいまいさを先頭に追加するmysql検索

別のソースからのデータを照合するために、2 つの異なるデータベース間で mysql でタイトル検索を実行しようとしています。db1 と db2 の両方で、タイトルは、一方のデータベースでは「最初のタイトル」で始まり、もう一方のデータベースでは「最初のタイトル」だけで始まるか、「遠く離れて」対「遠く離れて」になることがあります。

Mysql の全文検索は、これを理解するのにあまり効果的ではないようです。私は現在、「WHERE title1=title2」という単純な一致のみを行っていますが、これはもちろん、タイトルにわずかな違いがある接続を見逃しています。

私が思いついた唯一の解決策は、タイトルのいずれかに「the」または「&」が含まれているかどうかを確認する一連の if ステートメントを実行することです。

これは恐ろしい方法ではありませんが、これらの問題を処理するクエリを作成するためのより効率的な方法があると思います。

何か案は？これまでのところ、私のオンライン検索は役に立ちませんでした。ありがとう

mysql data-mining

2009-06-23T18:43:51.853

0 投票する

4 に答える

693 参照

data-mining - データマイニングとビジネスインテリジェンステクノロジー

データマイニングやビジネスインテリジェンステクノロジの経験を求める仕事が増えていることに気付きました。これは信じられないほど広いトピックのように聞こえますが、インタビューで取り上げられた場合、このことについて少なくとも部分的な理解を深めたい場合、どこに行きますか?

data-mining business-intelligence

2009-07-12T12:40:22.320

0 投票する

7 に答える

2088 参照

data-mining - 開発者の観点から見たデータマイニングとは何ですか？

本やウィキペディアでデータマイニングの技術的な説明を見つけることができますが、それは正確にどのような開発を伴うのでしょうか？それはツールの使用に関するものですか、それともツールの作成に関するものですか？研究開発に関しては、他のドメインと本当に大きな違いがありますか？

data-mining

2009-07-14T08:00:27.033

0 投票する

1 に答える

809 参照

c# - さまざまなニュースソースをデータマイニングするにはどうすればよいですか?

私は、1 日のトップニュース記事を分析し、統計情報を提供する無料の Web アプリケーションに取り組んでいます。ほとんどのニュース Web サイトは RSS フィードを提供しています。ただし、ニュース Web サイト自体から完全なニュース記事を取得しようとすると、問題が発生します。現時点では、ソース (CNN、NY Times など) ごとに個別のNewsSourceクラスがあり、適切な RSS フィードを読み取り、各リンクをたどり、本文を取り除きます。ニュース Web サイトが記事の HTML 構造を変更することを決定した場合、これは面倒で非常に扱いにくいように思えます。

複数のニュースソースを(要約だけでなく) 記事の全内容と既に集約しているサービス (できれば無料) はありますか? そうでない場合、予告なしに変更される可能性がある異なる HTML 構造を持つ複数のソースを処理するための提案はありますか?

c#web-scraping rss data-mining feed

2009-07-14T18:27:18.253

0 投票する

4 に答える

8402 参照

java - Java データマイニング (JDM) とは?

私はJDMを見ています。これは、実際のデータマイニングを行う他のツールと対話するための単なる API ですか? それとも、実際のデータマイニングアルゴリズムを含む一連のパッケージですか?

java api data-mining

2009-07-21T20:10:41.120

0 投票する

3 に答える

170 参照

ruby-on-rails - 選択した一連のカテゴリのアイテムカウンターの計算

私たちの Ruby on Rails プロジェクトでは、調理方法、機会など、レシピの分類基準が多数あります。すべてのレシピは、これらのカテゴリの 1 つまたは複数に属しています。誰かがレシピの閲覧を開始すると、特定のカテゴリのセットに絞り込むことができます。次に、このセットからアクセスできるすべてのカテゴリのレシピの数を計算する必要があります (「アクセス可能」とは、選択したカテゴリにも属するそのカテゴリにレシピがあることを意味します)。これは、Amazon の検索の仕組みと似ています。誰かが「ソフトウェア」と入力すると、左側に「本 (200)」、「映画 (300)」などのメニューが表示されるので、ユーザーはこれらのリンクをクリックすることでさらに深く掘り下げることができます。

現在、大まかに次のように実装しています。

URL から選択したカテゴリのセットを作成します。
現在選択されている基準に該当するすべてのレシピからカテゴリ ID を取得するクエリを実行します。
すべてのカテゴリ ID をレシピのカウントにマップするインデックスを構築し、ゼロ以外のカウンターを持つものだけをレンダリングします。
このインデックスは memcached に 24 時間保存されるため、特定のページについて 1 日に 1 回だけ計算されます。

私の懸念は、キャッシュミスがあると、インデックスの構築に時間がかかることです。この問題を解決する方法、または現在のソリューションを改善する方法について何か提案はありますか?

ruby-on-rails ruby data-mining

2009-07-26T19:00:45.723

0 投票する

1 に答える

323 参照

data-mining - Netflixのようなコンテスト

Netflixプライズに似たコンテストやタスクについて知っている人はいますか？それはお金だけでなく、データの次元、挑戦的なタスクとの強いつながりについてもです。

data-mining

2009-07-28T13:22:29.677

0 投票する

7 に答える

1360 参照

open-source - オープンソースのデータマイニングソフトウェア

私は考えていた; 非バイナリアソシエーションルールの生成に使用できる最高のオープンソースソフトウェアは何ですか。現在の非バイナリデータをバイナリデータに変換しても目的の結果が得られないため、非バイナリの実装が必要です。

コメントをお待ちしております。

open-source associations data-mining

user131441

2009-07-28T16:54:37.693

問題タブ [data-mining]

解像度

Reference