問題タブ [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
jquery - Processing、jQuery、Pure Data、または Max/MSP を使用して「ライブ」株式市場データをプロットするにはどうすればよいですか?
これは、提案、ヒント、またはポインターに対して非常に開かれた質問として意図されています。自家製の自動投資モデルをいじってみたいと思っています。私は、これに役立つ可能性があると思われるいくつかのフレームワーク/言語に精通しています。指定された言語以外の言語に関する提案も歓迎します。
Google または Yahoo の金融 API から XML データを照会できるでしょうか? XML にあまり詳しくありません。この目的を達成するために関連するチュートリアルや XML に関する情報はどこにありますか?
また、特定の条件で大量の「現在の」株式データ (多くの株式の現在の値) を検索する方法はありますか?
ありがとうございました!
data-mining - 入力属性と予測可能属性の違い
データマイニングの決定木アルゴリズムの入力属性と予測可能属性の違いを誰かが明確にしてください。
ありがとう。
mysql - 半構造化データの共通値を抽出するためのグループ化
場所の名前を保持するデータベースに「やや」醜いフィールドがあります。例えば、「The Madison Square Gardens」としてもエントリーされているMadison Square Gardensなど。
すべての場所の正確なリストを取得できるように、データを抽出しようとしています。これを達成するために、私が行ったことは、各場所のイベントを結合する SQL クエリを作成し、場所名でグループ化し、10 を超えるエントリを持つ場所グループのみを使用することです (これは、やや非信頼できるエントリ)、しかし、私はまだいくつかの非常に異なるスペルとエントリになってしまい、その結果、プロパティ/場所が重複しています.
私のSQLクエリは次のようになります
このクエリを実行すると、「Madison Square Garden」、「Madison Square Gardens」、「The Madison Square Garden」という 3 つの異なるエントリが返されます。もちろん、これはマディソン・スクエア・ガーデンの入場のみです。ほとんどのエントリには、複数のわずかに異なるスペルがあります。
検索を緯度/経度で制限しているため、異なる都市で同じ名前の場所がグループ化されることはありません。
これらを一貫してグループ化するために、正規表現または GROUP 句の何かを使用する方法はありますか? グループ化の前に末尾の「s」と「the」を削除するだけでも、おそらく大きな利点になります。
それぞれの結果を取得し、緯度/経度の範囲内のすべての場所に対して正規表現の一致を行うつもりでしたか?
幸いなことに、場所にリンクされたイベントが十分にあるので、主要な場所をある程度認識できます。
半構造化データから場所を抽出するための他の提案はありますか? データはさまざまなソースから廃棄されているため、入力を制御することはできません。
machine-learning - 機械学習ツール Weka の使用についての質問
分類には Weka のエクスプローラー機能を使用しています。
したがって、NUMERIC 値の 2 つの機能を持つ .arff ファイルがあり、クラスはバイナリ 0 または 1 ({0,1} など) です。
サンプル:
この .arff ファイルをロードし、10 分割クロス検証 (テスト ファイルなし) を使用し、NaiveBayes を選択してから、データを分類すると、ラベルが正しくない 5 つ、正しくラベル付けされた 100 が得られます。ここまでは順調ですね。
ここで、.arff ファイルを大幅に変更します (フィーチャ属性に完全にランダムな値を指定します)。上記を繰り返すと、分類時にまったく同じ統計が得られます。
.arff ファイルにさらに変更を加えて、さまざまな分類アルゴリズムでこれを試しました。それでも、.arff ファイルにどのような値を指定しても、(同じアルゴリズム内で) まったく同じ統計が得られます。
ここで何か間違ったことをしていますか?
artificial-intelligence - 情報のマイニング、分類、変更
次のシナリオの例、ヒント、ガイダンスはありますか?
いくつかの異なるニュースWebサイトから更新を取得しました。次に、その情報を分析して、世界の現在の傾向を予測します。
上記のアイデアを検索したときにデータマイニングに関する情報しか見つかりませんでしたが、それはデータベースシステム用です。データマイニングは私がやろうとしていることと似ていますが、データベース情報のデータマイニングは、私がWebサイトから取得したものよりも具体的です。それで、誰かがこの側面について私を導くことができますか?私はあなたがこれに関して与えることができるどんな助けにも本当に感謝します。
ありがとう。
java - 機械学習の課題: Java/groovy でのプログラムの診断 (データマイニング、機械学習)
診断を提供するプログラムを Java で開発する予定です。データセットは、トレーニング用とテスト用の 2 つの部分に分割されます。私のプログラムはトレーニングデータから分類することを学ぶ必要があります(新しい列にそれぞれ30の質問に対する回答が含まれているところで、新しい行の各レコードは最後の列が診断0または1になり、データ診断列のテスト部分が空になります-データセットには約 1000 レコードが含まれています)、データのテスト部分で予測を行います:/
私は似たようなことをしたことがないので、同様の問題の解決策に関するアドバイスや情報をいただければ幸いです。
Java Machine Learning Library かJava Data Mining Packageを考えていましたが、方向性が正しいかどうかわかりません... ? そして、私はまだこの課題に取り組む方法がわかりません...
お知らせ下さい。
ではごきげんよう!
.net - .NET 用データマイニング ライブラリ
.net のデータ処理ライブラリについて知っている人はいますか?
hex - HEX パターンと出現回数を調べる
パターンを見つけて、所有している HEX ファイルの出現回数で並べ替えたいと思います。
私は特定のパターンを探しているのではなく、そこで起こっている出来事の統計を作成して並べ替えるだけです。
これは HEX ファイルの抜粋です。例として、以下を取得したいと思います。
BDBDBDのXX回の発生
B93DのXX回の出現
ファイルをマイニングしてその出力を生成する方法はありますか?
data-structures - 大量のテキストで一般的なフレーズを見つける方法
私は現在、膨大な量のテキストの中で最も一般的なフレーズを選択する必要があるプロジェクトに取り組んでいます。たとえば、次のような3つの文があるとします。
- 犬は女性を飛び越えた。
- 犬は車に飛び込んだ。
- 犬は階段を飛び上がった。
上記の例から、テキストで最も一般的なフレーズである「犬がジャンプした」を抽出したいと思います。最初は、「[ノードが繰り返される]有向グラフを使用しましょう」と思いました。
有向グラフhttp://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png
編集:お詫びします。この図を「上」、「中」、「上」にすると、すべて「the」にリンクするはずです。
各ノードオブジェクトで単語が発生した回数のカウントを維持するつもりでしたが(「the」は6、「dog」と「jumped」、3など)、他の多くの問題にもかかわらず、メインの問題は次の場合に発生しました。次のような例をさらにいくつか追加します(悪い文法は無視してください:-)):
- 犬が飛び跳ねた。
- 犬はこれまでジャンプしたことがないようにジャンプしました。
- 犬は楽しくジャンプしました。
「dog」が(「the」と同じレベルで)新しいルートノードを開始し、「dogjumped」が現在最も一般的なフレーズであると識別されないため、問題が発生します。だから今、私は無向グラフを使ってすべての単語間の関係をマッピングし、最終的には一般的なフレーズを選ぶことができると考えていますが、間の順序の重要な関係が失われるため、これがどのように機能するかわかりません言葉。
したがって、大量のテキストで一般的なフレーズを識別する方法や、使用するデータ構造についての一般的なアイデアはありますか。
ありがとう、ベン
data-mining - アドホック クエリ ツール パターン
アドホック クエリ機能をグラフィカルに実装する一般的なパターンを探しています。Access と TOAD の SQL クエリ ビルダーを見てきましたが、ドメイン固有のデータ ウェアハウス (臨床データベースなど) に対してそのようなツールを構築した製品を誰かが知っているかどうかに興味があります。
ありがとう、