問題タブ [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-mining - 関数名が規則に従っているかどうかを予測する方法
10,000 個の関数名のリポジトリがあり、C/C#/C++ で作成できるコードのコーパスでそれらの使用頻度があるとします。(彼らは通常規定されている異なる慣習を持っています)
一部のサンプルは次のとおりです。
関数名が与えられた場合、名前が Human Generated Name の規則に従っているかどうかをどのように予測できますか?
ノート:
- 明らかに、すべての候補名は有効な名前になります
- 生成された名前には任意の文字を含めることができ、不適切なものとして扱われます
- レターケースは文字化けする可能性があります
いくつかの候補:
技術とソフトウェアに関する指針は大歓迎です
sql-server - 分析サービスとビジネスインテリジェンス開発スタジオの違いは?
タイトルからお察しのとおり、私は分析サービスを初めて使用します。私は過去5時間(クレイジー!)を費やして、利用可能な分析サービスの違いを理解しようとしています。SSMSおよびビジネスインテリジェンス開発スタジオを通じて利用できます。Visual Studioを介して?
ありがとう
business-intelligence - マイクロソフト ビジネス インテリジェンス。私がやろうとしていることは可能ですか?
私は、会社の Web サイトのログ テーブルを分析するタスクを担当しています。このテーブルには、特定のセッションの Web サイト全体でのユーザーのクリック パスが含まれています。私の会社では、ユーザーの「クリック パス」に基づいて傾向を理解し、特定しようとしています。そうすることで、年齢や地域などに基づいて、特定の「クリック パス」を取るユーザーのグループを特定します。
タイトルからわかるように、私は BI とその機能にまったく慣れていないので、次のことを考えていました。
- 私たちの目標は達成可能ですか?
- これを行うにはどうすればよいですか?
私は現在、オンラインの本や見つけた他の電子書籍を読んでいます。すべての兆候は、これがシーケンス クラスタリングによって可能であることを示唆しているようです。正確な実装と関連する微調整は現在私にはわかりません。したがって、そのような事業を直接経験したことがある人がいる場合は、ここで共有していただければ幸いです。
乾杯!
matlab - MATLAB でデータをトレーニング/テスト データセットに分割しますか?
いくつかの調査で、MATLAB でタスクを実行する 2 つの関数を見つけました。
cvpartition
Statistics Toolbox の関数crossvalind
バイオインフォマティクス ツールボックスの関数
以前は、統計ツールボックスの/クラスcvpartition
と一緒に、n 分割交差検証サブセットを作成するために を使用しました。だから私は、2つの違いとそれぞれの長所/短所は何ですか?Dataset
Nominal
.net - テキストのチャンクで一般的なフレーズを発見するためのテクニック/ツールは何ですか?
100000 通のメール本文があり、そのうちの 2000 通には、「怠惰な犬を飛び越える素早い茶色のキツネ」や「lorem ipsum dolor sit amet」などの任意の共通文字列が含まれているとします。これらのフレーズを「マイニング」するには、どのような手法を使用できますか? 単語や短いフレーズのマイニングには興味がありません。また、すべてのメールに含まれていることがわかっているフレーズを除外する必要があります。
例:
この例では、DiscoverPhrases 関数が「lorem ipsum dolor sit amet」と「have a nice day」を返すようにします。関数が短い「ノイズ」フレーズも返すかどうかはそれほど重要ではありませんが、可能であれば、プロセスでこれらを排除するとよいでしょう。
編集: 例に mailbody3 を含めるのを忘れていました。
email - 送信されたメッセージ情報のPostfixAPI/ルックアップテーブル
現在、メッセージが送信されたかどうかを判断するためにPostfixログファイルを解析するのが一般的な方法のようです。Postfix用のAPIまたはその中にルックアップテーブルがあり、(かなり長い)ログファイルを解析するよりも迅速にこの情報を生成しますか?
python - Python でのオープン ソース データ マイニング/テキスト分析ツール
さまざまな製品のレビューでいっぱいのデータベースがあります。私の仕事は、さまざまな計算を実行し、集計データを使用して別の「database/xml-export」を「作成」することです。そのためにPythonでコマンドラインプログラムを書くことを考えています。しかし、私は誰かが以前にこれを行ったことを知っており、おそらくもっと興味深い「集約データ」を提供するオープンソースのpythonソリューションまたは類似のものがあることを知っています。
問題は、コマンドラインからの基本的なデータ操作以外に、この領域についてあまり知らないことです。また、このことを検索するために使用する用語を知っていることもありません.科学的/視覚化的なものを探しているわけではありません. (ツールが提供するかどうかは気にしないというわけではありません)、簡単に始めて、必要なものを徐々に確認/開発することができます。
私の唯一の要件は、「集約されたデータの終了」がデータベースにあるか、XMLファイルとしてエクスポートすることです。4台のマシンで「大量」のデータを処理する必要があるため、Pythonスクリプトよりも少し堅牢です。
どこから研究を始めるべきかヒントはありますか?
ありがとう。
data-mining - オープンソーシャルベースのネットワークから情報を抽出するにはどうすればよいですか?
orkutのようなopensocialベースのネットワークから情報を抽出するにはどうすればよいですか。
api - ニュース データ API またはフィード
コーディング/データマイニングに使用できるニュース フィード/API があるかどうかを知りたいです。たとえば、Skygrid はライブ ニュース フィードを提供し、ニュースが良いか悪いかを示しますが、それはすべてフラッシュであり、Twitter 以外の RSS は提供していないようです。