問題タブ [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 非実験データから科学的結果を得る方法(データマイニング?)
- 多くの変数があり、その多くは制御できないプロセスから最大のパフォーマンスを得たいと思っています。
- 何千もの実験を実行できないので、何百もの実験を実行できればいいのですが
- 多くの制御可能なパラメータを変更する
- パフォーマンスを示す多くのパラメータに関するデータを収集する
- 私が制御できなかったパラメータについては、可能な限り「正しい」
- 私が制御できるものの「最良の」値をいじめ、最初からやり直します
これはデータマイニングと呼ばれるように感じます。ここでは、すぐには関連していないように見えますが、ある程度の努力の後に相関関係を示している大量のデータを調べています。
それで...私はどこでこの種のもののアルゴリズム、概念、理論を見始めますか?検索を目的とした関連用語でさえも役立つでしょう。
背景:私はウルトラマラソンサイクリングをしたり、各ライドのログを記録したりするのが好きです。より多くのデータを保持したいのですが、何百回ものライドの後、自分のパフォーマンスに関する情報を引き出すことができます。
ただし、ルート、環境(温度、圧力、ハム、太陽負荷、風、降水量など)、燃料、姿勢、重量、水負荷など、すべてが異なります。いくつかのことを制御できます。しかし、同じルートを20回実行して新しい燃料レジームをテストするのは気のめいることであり、私がやりたいすべての実験を実行するには何年もかかります。ただし、これらすべてを記録することはできます(自転車FTWのテレメトリ)。
asp.net - ASP.Net で SQL Server 2008 のデータ マイニング機能を使用する方法
ASP.Net で SQL Server 2008 のデータ マイニング機能を使用する方法
database - メトリック空間での索引付けと検索のためのよく説明されたアルゴリズム
Postgres(*) (PL または PL/Python) で何らかのメトリック空間検索を実装する必要があります。そのため、これらのアイデアの背後にある仕組みについて非常に明確で明確な説明があり、自分で実装できるような良い情報源 (または論文) を探しています。
私は効率よりも明快さを好みます。
(*) その必要性については、こちらで詳しく説明しています。
algorithm - セット内のパターンを見つける
文字列セット内の一般的な文字を判別するために使用できるアルゴリズムは何ですか?
例を簡単にするために、2 つ以上の文字が連続して表示され、それがサンプルの 2 つ以上に表示されるかどうかだけを気にします。例えば:
- 0000abcde0000
- 0000abcd00000
- 000abc0000000
- 00abc000de000
知りたい:
00 は 1,2,3,4
で使用 000 は1,2,3,4
で使用 0000 は 1,2,3
で使用 00000 は 2,3
ab で使用 1,2,3,4
abcで使用1,2,3,4 で使用されました
abcd は 1,2で使用されまし
た bcd は
1,2,3,4 で使用されましたbcd は 1,2
で使用されました cd は 1,2 で使用されました
de は 1,4 で使用されました
python - Python で複数の辞書を比較する
私はPythonが初めてで、Googleで解決できない問題に直面しています。wxPython と ObjectiveListView を使用して GUI を作成しました。GUI の中心には、データを X 行 (データはユーザーがロード) および 5 列で表示するリスト コントロールがあります。
ユーザーがリスト コントロールから複数のエントリを選択すると (CTRL または Shift キーを押しながらクリック)、ObjectiveListView モジュールは辞書のリストを表示します。辞書には、リスト コントロールの行のデータが含まれています。これはまさに私が欲しいものです。
返されるリストは次のようになります。
すべての辞書は同じキーを持ちますが、値は変わります。「id」値は一意です。ここで問題が始まります。ユーザーが選択したすべてのアイテムの共通値を取得したい。上記のリストでは、'sum':'-21,90' および 'target':'Apple Store' になります。
リスト内の辞書を適切に比較する方法がわかりません。大きな問題の 1 つは、リストに含まれる dict の数がユーザーによって決定されるため、事前にわからないことです。
リスト内包表記の方がよいという漠然とした考えがありますが、n個のリストではなく、2つのリストをリスト内包表記で比較する方法しか知りません。どんな助けでも大歓迎です。
web-services - [1年のような期間にわたって]世界中の都市の気象データを取得するためのWebサービスはありますか?
一定期間の都市の月間最低気温/最高気温を取得するWebサービスはありますか?
data-structures - 「同等の」テキストを見つける方法は?
2つのテキスト文字列を検索(生成しない)して、すべての非文字を削除して使用した後、1つの文字列を単純な置換で別の文字列に変換できるようにします。
これの動機は、確率分布を介して暗号を攻撃する方法をテストすることであると私が知っているプロジェクトから来ています。単純な換字式暗号で暗号化すると、一貫性のある他の何かに復号化できる、大きくて一貫性のあるプレーンテキストを見つけたいと思います。
これは2つの部分になり、コーパス内でそのような最長の文字列を見つけて、そのコーパスを取得します。
最初の部分は、最初の出現のシーケンスを連続させる置換の後に、文字列をキーオフしたBツリーを使用したある種の攻撃に慣れているように見えます。
ツリーの各深さに基づいて文字列の最大値と長さを知ることに基づく少しの最適化と、残りはコーディングだけです。
他の部分はかなり複雑になります。検索するテキストの大きなコーパスを生成する方法は?ある種のインターネットスパイダーは、最大量のテキストにアクセスできるので理想的なアプローチのように見えますが、それをテキストだけにストリップする方法はありますか?
質問は; これをより良くする方法について何かアイデアはありますか?
編集:使用されていた暗号は、めちゃくちゃ基本的な26文字の換字式暗号です。
psこれは、私にとっておそらく実際のプロジェクトというよりも、思考実験です。
ssis - データマイニング、SSIS、BI、ETL、およびその他の関連技術について説明してもらえますか?
私は昨日、同僚と SSIS (またはそのようなもの) を使用して、「Dr. Reginald Williams, PhD. そして、いくつかの重み付けスキームに基づいて、システムはそれをトークン化してデータベースに「挨拶-名-姓-サフィックス」として保存する方法を理解するのに十分スマートでした。彼は、BI、SSIS、ETL、データ マイニングなどの流行語をいくつか投げかけました。本当はもっと情報が欲しかったのですが、どこから聞いたらいいのかさえわかりませんでした。
私は .Net 開発者であり、C#、Vb.Net、WPF などに精通していますが、これらのテクノロジが何であるか、それらを自分のスキル セットに追加する方法、およびそれが私は本当に集中する必要があります。あらゆる方向が役に立ちます。
java - どのデータ マイニング アプリケーションを使用しますか?
最後に使用したのはweka です。私が最後に聞いたのは、Java がそのための API (JDM) を考え出すというものでした。誰でもツールの経験を共有できますか? 私は主に、分類/クラスタリング用のツールを使用することに関心があり (weka はここでまともな仕事をします)、ツールは優れた API サポートを備えている必要があります。