問題タブ [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 遺伝的アルゴリズムを使用したスパース パラメーターの選択
遺伝的アルゴリズム (GA) を使用して解決したいパラメーター選択の問題に直面しています。3000 の可能なパラメーターから 4 つ以下のパラメーターを選択することになっています。バイナリ染色体表現を使用することは、自然な選択のように思えます。評価関数は、あまりにも多くの「選択された」属性を罰し、属性の数が許容できる場合は、選択を評価します。
問題は、これらのまばらな条件では、GA が人口をほとんど改善できないことです。平均フィットネス コストも、「最悪」の個人のフィットネスも世代を超えて向上しません。私が見ているのは、最良の個人のスコアがわずかに (ごくわずかでも) 改善されていることだけです。これは、ランダム サンプリングの結果であると思います。
パラメータのインデックスを使用して問題をエンコードしても機能しません。これはおそらく、染色体には方向性があるが、選択の問題には方向性がないためです (つまり、染色体 [1, 2, 3, 4]; [4, 3, 2, 1]; [3, 2, 4, 1] 等は同一)
どのような問題表現を提案しますか?
PSこれが重要な場合は、PyEvolveを使用します。
sql-server - ビジネス インテリジェンス: MS SQL Server を使用したデータ マイニング?
SQL Server を使ったデータマイニングについて勉強しなければなりません。私が知っているように、SQL Server のビジネス インテリジェンスはデータ マイニングをサポートしていますが、よくわかりません。
- BI は本当にデータ マイニングをサポートしていますか?
- SQL Server でデータ マイニングを開始するにはどうすればよいですか? つまり、書籍、ブログなどのリソース
皆さん、ありがとうございました。
sql-server - データ内の相関列の検出
次のデータがあるとします。
列 "CustomerName"、"CustomerAddress"、および "CustomerCode" がすべて完全に相関していることをどのように検出できますか? Sql Server のデータ マイニングはおそらくこの仕事に適したツールだと思いますが、その経験はあまりありません。
前もって感謝します。
アップデート:
「相関」とは、統計的な意味で、列 a が x のときはいつでも列 b が y になることを意味します。上記のデータでは、最後の 3 つの列は互いに相関しており、最初の列は相関していません。
操作の入力はテーブルの名前になり、出力は次のようになります。
sql-server - 何年にもわたる 100 x 25 Hz の時系列を保存する方法 - SQL Server または時系列データベース
25 Hz 浮動小数点データの 100 チャネルを格納するための可能な方法を特定しようとしています。これにより、年間 78,840,000,000 データポイントが発生します。
理想的には、このすべてのデータが、Sql Server レポート サービスなどの Web サイトやツールで効率的に利用できるようになります。リレーショナル データベースがこの規模の時系列を処理するのが苦手であることは認識していますが、説得力のある時系列固有のデータベースをまだ特定していません。
主な問題は、効率的なストレージのための圧縮ですが、簡単で効率的なクエリ、レポート、およびデータ マイニングも提供します。
このデータをどのように処理しますか?
このような量の時系列データを処理できる Sql Server の機能またはテーブル設計はありますか?
そうでない場合、巨大な時系列を効率的に処理するための Sql サーバー用のサードパーティの拡張機能はありますか?
そうでない場合、そのようなデータの処理に特化し、Sql、.Net、および Sql Reporting サービスを介して自然なアクセスを提供する時系列データベースはありますか?
ありがとう!
algorithm - 全文検索結果から (Google と同様に) 関連する小さなテキストを抽出する
ディスカッション フォーラム データベースに全文検索を実装しました。Google の方法で検索結果を表示したいと考えています。非常に長い html ページの場合でも、検索結果リストに表示されるテキストは 2 ~ 3 行だけです。通常、これらは検索語を含む行です。
テキスト自体と検索用語に基づいてテキストの数行を抽出する方法の良いアルゴリズムは何でしょうか。テキスト内で検索用語が出現する前に 1 行のテキストを使用し、その後に 1 行を使用するだけの簡単なことを考えることができますが、それは単純すぎて機能しないようです。
いくつかの方向性、アイデア、洞察を得たいと思います。
ありがとうございました。
php - dbpedia からダウンロードしたこの csv データセットはどうすればよいですか?
ウィキペディアのインフォボックスのこの csv を dbpedia からダウンロードしました。しかし、私はそれを使用する方法がわかりません:-SI は、このすべてのデータをデータベースにインポートしたいのですが、ここから取得する方法がよくわかりません。http://wiki.dbpedia.org/Downloads32#infoboxesからダウンロードしました
私はPHPで働いています
記録として、この csv ファイルは約 1.8 GB です。ウィキペディアから選択した一連の記事から選択した一連のインフォボックスを取得するためだけに、私は実際にこのすべての問題をうまく処理しています。国と都市を含む10,000を超えるエントリのインフォボックスが必要な場合を除いて、手動で行います。私はこれを行う簡単な方法を探しているだけで、率直に言って、すべてのオプションを使用しています:(
php - ウィキペディア統合の問題 - 最終的にこれを整理する必要がある 101
申し訳ありませんが、ウィキペディアのデータをアプリケーションに統合する方法について質問するモックを実行していましたが、率直に言って、すべてのアイデアを試して少しあきらめていたため、成功したとは思いません行き止まりや障害物を読んだとき。ここで私がやろうとしていることを正確に説明しようとします。
都市や国などの場所の単純なディレクトリがあります。私のアプリケーションは、検索およびブラウズ機能を備えた単純な php ベースの ajax ベースのアプリケーションです。人々はサインアップして都市に関連付けられ、ユーザーが都市をブラウジングすると、その都市の人々や企業、つまり私たちのシステムの一部である人を見ることができます.
その部分は、それ自体で簡単にセットアップでき、正常に機能しています。問題は、私の検索結果が次のような形式になるということです。3 つのタブ付きのインターフェイス ボックスに戻ります。
- 最初のタブには、北京の都市情報を含むインフォボックスがあります
- Seond は、中国の国情報のインフォボックスを保持する国タブになります。
- 3 番目のタブには、北京のすべての連絡先のリストが表示されます。
最初の 2 つのタブのコンテンツは、Wikipedia から取得する必要があります。今、私はこれを行うための最良の方法について完全に迷っており、さらに方法論を決定したら、どのようにそれを行い、非常に屈強。
これまでに消化できた良いアイデアと悪いアイデアのいくつかは次のとおりです。
curl リクエストをウィキペディアに直接実行し、検索が行われるたびに返されるデータを解析します。このウィキペディアのデータの場合、ローカル コピーを維持する必要はありません。もう 1 つの問題は、リモートの 3 番目の場所からのデータに完全に依存していることです。基本的な情報を取得するためにウィキペディアに毎回要求を行うことは現実的ではないと思います。さらに、ウィキペディアのデータはリクエストごとに解析する必要があることを考慮すると、サーバーの負荷が高くなる..または私はここで推測しています.
ウィキペディアのダンプをダウンロードして、それをクエリします。データベース全体をダウンロードしましたが、xml ダンプからすべてのテーブルをインポートするには永遠に時間がかかります。さらに、国と都市とその情報ボックスのリストを抽出したいだけであるという事実を考慮してください。ダンプ内の多くの情報は役に立ちません。
独自のローカル テーブルを作成し、wikipedia のすべての国と都市のページを解析してテーブルで使用できる形式に変換する cron[ここで cron ジョブの理由を説明します] スクリプトを作成します。しかし、正直なところ、インフォボックスの基本的なマークアップをそのまま取得できれば、インフォボックスのすべての情報は必要ありません。それで十分です。お気に入り:
国名 | インフォボックス 生テキスト
必要に応じて、座標やその他の詳細などを個人的に抽出できます。
infochiumps と dbpedia からサード パーティのデータセットをダウンロードしようとしましたが、infochimps のデータセットは不完全で、表示したい情報がすべて含まれていませんでした。さらに、dbpedia では、infobox からダウンロードした csv ファイルをどうすればよいかまったくわかりません。また、完全ではない可能性もあります。
しかし、それはここでの問題のほんの一部です。ウィキペディアの情報を表示する方法が必要です - すべてのリンクがウィキペディアを指すようにし、ウィキペディアからの素敵な情報が全体に適切に表示されるようにしますが、問題は、私が持っている情報を定期的に更新できる方法が必要なことです。ウィキペディアからなので、少なくとも完全に古いデータはありません。同様に、チェックできるシステムと言ってみましょう。新しい国または新しい場所がある場合、情報を解析して何らかの方法で取得できます。ここではウィキペディアの国と都市のカテゴリに依存していますが、率直に言って、これらのアイデアはすべて紙に書かれており、部分的にコード化されており、非常に混乱しています。
私は PHP と MySQL でプログラミングを行っていますが、締め切りが迫っています。上記の状況と要件を考えると、従うべき最も実用的な方法は何でしょうか。私はアイデアを完全に受け入れています - 誰かが同様のことをした場合の実用的な例 - 聞きたいです:D
python - API の範囲外である Google Finance からの財務データの取得
Google の金融 API は不完全です。次のようなページの図の多くは次のとおりです。
http://www.google.com/finance?fstype=ii&q=NYSE:GE
API 経由では使用できません。
「greenblatt index scans」の Google 検索で入手できる Greenblatt の式に従って、カナダの証券取引所で企業をランク付けするには、このデータが必要です。
私の質問: これらの Web ページのデータにアクセスして処理する最もインテリジェントでクリーンで効率的な方法は何ですか。この場合、退屈なアプローチが本当に必要ですか? もしそうなら、それを行う最善の方法は何ですか? 私は現在、これに関連するプロジェクトのために Python を学んでいます。
python - robots.txt によってブロックされたインターネット ページが見つかりません
問題:大学の数学の講義の答えと演習を見つけること。ヘルシンキ
実用上の問題
Disallow
robots.txtにある .com を含むサイトのリストを作成する- *.pdf のファイルを含む (1) のサイトのリストを作成する
- (2) のサイトのうち、pdf ファイルに「analyysi」という単語が含まれているサイトのリストを作成する
実用的な問題の提案
- 問題 3: PDF ファイルからデータをスクレイピングするコンパイラを作成するには
質問
- 登録されている .com サイトを検索するにはどうすればよいですか?
- Python の defaultdict と BeautifulSoap を使用して、実際の問題 1 と 2 をどのように解決しますか?