問題タブ [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-mining - 車両検索に最適なデータマイニング方法は何ですか?
私は、Ooodle、eBay motors、craigslist などのオンラインの自動車広告を検索する検索エンジンを構築しようとしています。また、標準的な車両名とそれらに関する仕様の大規模なデータベースもあります。私がやりたいことは、分類されたサイトで見つけた各レコードについて、それがどの車両モデル、スタイルであるか (私のデータベースから) を正確に判断できるようにすることです。たとえば、私のデータベースでのフォード トラックの標準的な名前は、2003 Ford F150 です。
ただし、分類されたサイトでは、「2003 Ford F 150」または「2003 Ford f-150」または「03 Ford truck 150」と呼ばれることがあります。これらのテキストを上記の標準名に正規化できる効果的なデータ マイニング/テキスト分類アルゴリズムはありますか?
asp.net - チャート作成とデータ操作
ここには .net グラフ コントロールに関するスレッドがいくつかありますが、グラフ作成と共に高度なデータ操作 (データマイニングに該当する可能性がありますが、よくわかりません) を探している可能性があるため、新しいスレッドを開始します。
主要業績評価指標 (KPI) システムの調査とプロトタイプ作成を依頼されました。基本的に、データベースには大量の売上高があり、このデータのさまざまな関係をグラフ化/チャート化したいと考えています。たとえば、2008 年 1 月に値上げを行い、各月の売上を前年の売上と比較してグラフに表示します。
データベースはまだ存在しません。他のさまざまなデータベースからデータを取得するため、新しいデータベースは最初から作成されます。現時点では、Excel 形式のサンプル データと、Excel で作成された一種のプロトタイプがあります。
これにアプローチするには、おそらく2つの方法があると思います。
- 必要なすべてのクエリを手動で作成し、データを .net チャート コントロールに提供します。
または
- データ内の関係を引き出す際に多くの単調な作業を行うことができる既製のデータ操作/マイニング ツールはありますか。この種のものが存在するかどうかわかりませんか?(私は自分の学位論文のためにこのようなものを構築しようとしたことは知っていますが、信じられないほどがらくたでした!)
関連する注意事項の 1 つとして、Dundas グラフ作成ツールと Microsoft asp.net グラフ作成ツールは本質的に同じことを行います。スタックオーバーフローのスレッドで、誰かが実際に同じことがあると主張しています.MSはダンダを購入しましたか? 無料の MS チャート コントロールを使用するのではなく、dundas を購入する理由はありますか?
これに関するアドバイスは大歓迎です。前もって感謝します!
algorithm - 離散属性と連続属性を持つクラスタリング アルゴリズム?
離散属性と連続属性の両方でクラスタリングを実行するための優れたアルゴリズムを知っている人はいますか? 私は類似した顧客のグループを特定する問題に取り組んでおり、各顧客には離散的属性と連続的属性の両方があります (顧客のタイプ、この顧客が生み出した収益額、地理的な場所などを考えてください。)
従来、K-means や EM などのアルゴリズムは連続属性に対して機能しますが、連続属性と離散属性が混在している場合はどうなるでしょうか?
sql - SQLServerの非標準の日付ベースのヒストグラム
タイムスタンプ付きのユーザーログインデータがあります。やりたいのは、年ごとのログインのヒストグラムを取得することですが、年は任意の日付から始まります。たとえば、次のような情報が必要です。
最初の列のラベルは重要ではありませんが、日付範囲は重要です。私はそれを海峡の年ごとに分解できることを知っています:
しかし、それでは必要なデータ範囲が得られません。これはどのように行うことができますか?
open-source - データ マイニングのオープン ソース ツール
私はデータマイニングのプロジェクトに取りかかる予定です。本題に入る前に、Web ベースのレポート作成を可能にするさまざまなデータ マイニング ツール (できればオープン ソース) を調べてみました。私のシナリオでは、データが提供されるため、クロールする必要はありません。
簡単に言うと、データ分析、Web ベースのレポート、何らかのダッシュボードとマイニング機能を提供するツールを探しています。
私は Microsoft Analysis Services と BOXI に取り組んできましたが、最近は Pentaho を調べていました。これは良い選択肢のようです。
あなたが知っているそのようなツールについてのあなたの経験を共有してください。
乾杯
olap - BI はデータ マイニングとどのように関連していますか?
BI をデータ マイニングに接続する方法について少し混乱しています。BI は、データ マイニングのある種の顕現と呼ぶことができますか?
Microsoft Analysis Services のような BI ツールと Weka のようなデータ マイニング ツールの違いは何ですか?
BI には、データのレポートと分析がより多く含まれていると思います。データは何らかの集計を受け、キューブの形で表されますが、データ マイニングには、クラスタリングを実行するためのさまざまなアルゴリズムも含まれますね。
ポインタはありますか?
乾杯
algorithm - 最適なクラスタリング アルゴリズムは? (簡単に説明します)
次の問題を想像してください。
- 「articles」というテーブルに約 20,000 のテキストを含むデータベースがあります。
- 関連記事をまとめて表示するために、クラスタリングアルゴリズムを使って関連記事をつなぎたい
- アルゴリズムはフラット クラスタリングを行う必要があります (階層的ではありません)。
- 関連記事は「関連」テーブルに挿入する必要があります
- クラスタリング アルゴリズムは、テキストに基づいて、2 つ以上の記事が関連しているかどうかを判断する必要があります。
- PHPでコーディングしたいが、疑似コードや他のプログラミング言語を使ったサンプルでもOK
2 つの入力記事が関連している場合は「true」を返し、そうでない場合は「false」を返す関数 check() を使用して最初のドラフトをコーディングしました。残りのコード (データベースからの記事の選択、比較対象の記事の選択、関連記事の挿入) も完了しています。たぶん、残りも改善できます。しかし、私にとって重要なポイントは関数 check() です。したがって、いくつかの改善またはまったく異なるアプローチを投稿できれば幸いです.
アプローチ 1
アプローチ 2 [check() のみ]
また、クラスタリングには多くのアルゴリズムがあることを知っていますが、すべてのサイトには数学的な説明しかなく、理解するのが少し難しいことも知っています. したがって、(疑似)コードでのコーディング例は素晴らしいでしょう。
あなたが私を助けてくれることを願っています。前もって感謝します!
logging - バグを見つけるためのデータ マイニング ログ
ソースからデータを受け取り、そのデータを複数のターゲット アプリケーションに配布するデータ配布アプリケーションに取り組んでいます。8 日間、1 秒ごとに複数のメッセージを正常に配信した後、メッセージを 1 つ逃し、クライアントに適切に配信しませんでした。
ログを見ていると、ミスが発生した時点で特別な何かを見つけようとしました-データ、そのレート、またはその他の条件のいずれかでしたが、何も見つかりませんでした.
特定のイベントが他のイベントとどのように異なるかを特定するために使用できるデータ マイニング手法はありますか?