問題タブ [data-profiling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database-design - 顧客プロファイリングシステムに関する提案:本、記事など
C#を使用して、独自のEコマースWebサイトの顧客プロファイリングプロジェクト(Google Analyticsと類似していますが、同一ではありません)に取り組みます。私はこの種のプロジェクトにかなり慣れていません。また、顧客プロファイリングプロジェクトもまったく新しいプロジェクトです。それについて何か提案をいただけますか?
「ウェブサイトの訪問データの追跡」と「追跡データの分析」の2つの部分があるべきだと思います。
それについて何か提案をいただけますか?ありがとう:
- この種のプロジェクトには、どのようなデザインパターンが最適ですか?(パイプラインとフィルター?または他の?)私はC#を使用しています。
- どのようなデータベースが最適ですか?RDBMSまたはドキュメントデータベース?
- 追跡されたデータを格納するためのデータベーステーブルをモデル化する方法は?
- Googleでこのテーマを検索するために使用できるキーワードは何ですか?
- 読むべき記事や本を教えていただけますか?(本を読む時間があまりないので、記事の方がいいです)
- あなたが私が学ぶ必要があると思う他のこと。
前もって感謝します!
mysql - MySQLのキャパシティプランニング
私の実稼働環境では、1時間に最大20,000のクエリを処理する16ギガのメモリで実行されているMySQLサーバーの単一のインスタンスがあります。私のテーブルの1つのサイズは、月に200万の割合で増加しています。これらの数値はどちらも時間の経過とともに増加すると予想されますが、アーキテクチャをいつ改善する必要があるかはわかりません。
どうすれば状況に積極的に取り組み、将来にわたってシステムを保証できるでしょうか。
ハードウェアをアップグレードすることは、時間と資本効率の点で多くを購入しますか?
この場合、トラフィックを3か月ごとに2倍にすると、シャーディングは自然な進行になるので、一般的な方法は何でしょうか。または他の選択肢はありますか?
システムがピークに達しているかどうかを確認するにはどうすればよいですか?データベースのプロファイリングに使用できるツールにはどのようなものがありますか?そして、それを測定するために使用するメトリックは何ですか?
mysql - table_schema と table_name の関係のためのツール
データベース内の各テーブルの構造と関係を確認するためのプロファイリング ツールを知っていますか? それはこのようなものです:
以下のスクリーンショットを参照してください。
前もって感謝します。
どんな助けでも大歓迎です!:)
visual-studio-2010 - Visual Studio 2012 でコンカレンシー ビジュアライザーを開始できません。「ETW コレクションを開始できません」というエラーが発生しました
コンカレンシー ビジュアライザーを使用して WPF アプリケーションのプロファイルを作成しようとすると (プロセスへの起動とアタッチの両方を試行)、次のエラー ポップアップが表示されました - 「ETW コレクションを開始できません」
ETW は明らかに「Windows のイベント トレーシング」を意味しますが、プロファイリング セッション中に VS が ETW を開始できない理由がわかりません。助けてくれてありがとう。
database - データセットからパターンを抽出
さまざまなパラメーターからのデータで満たされたいくつかの列を持つテーブルがあります。一部の行は同じ列の値を共有している可能性があるため、各列で最も頻繁に使用される値を抽出して、各列の最も一般的な値のプロファイルを取得したいと考えています。
私は Oracle Databases テクノロジーを使用していますが、それを行う最善の方法は何ですか?
よろしくお願いします!
linux - プロセスのピーク時のディスク使用量の測定
時間、メモリ、およびディスク使用に関して、開発中のツールのベンチマークを実行しようとしています。基本的に最初の2つに必要なものが得られることはわかって/usr/bin/time
いますが、ディスクを使用するには、から「書き込まれたバイト」の内容を定期的に抽出する独自のbashスクリプトをロールする必要があるという結論に達しました/proc/<my_pid>/io
。このスクリプトに基づいて、私が思いついたのは次のとおりです。
残念ながら、次の 2 つの問題に直面しています。
- 1 つ目は、このスクリプトの出力と、ベンチマークしたいツールの出力をファイルにパイプしていることです。これらのストリームが干渉することがあり、ディスクの使用量が 0 またはディスク使用量が少なすぎることが報告されています。このファイル。
- 2 つ目の問題は、プロセスの一部として一時ファイルを削除するプロセスをどうすればよいかわかりません。この場合、公正なベンチマークはネットディスクの最大使用量 (つまり、書き込みバイト数のピーク - 消去バイト数) を記録することだと思いますが、この差の 2 番目の部分がどこにあるのかわかりません。
これらの問題を解決するにはどうすればよいですか?
powerbi - Power BI でのデータ プロファイリング
Power BI レポートにあるすべてのデータ テーブルをプロファイリングしたいと考えています。データ プロファイルとは、次のような意味です。
Power BI でデータ プロファイル ビューを作成する方法はありますか? DAX メジャーまたは計算列?
または、Power BI でこの結果を達成するのは少し難しいと思うので、そのようなタスクを処理できる他のデータ品質ツールをお勧めすることもできます。