問題タブ [data-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - ストアド プロシージャまたはコード
私は意見を求めているのではなく、ドキュメンテーションについてもっと求めています。
多くのデータ ファイル (XML、CSV、Plantext など) があり、それらを処理してデータ マイニングする必要があります。
主任データベース担当者は、ストアド プロシージャを使用してタスクを達成することを提案しました。基本的に、ファイルがシリアル化され、CLOB または XML 列に保存されるステージング テーブルがあります。そこから、さらにストアド プロシージャを使用してファイルを処理することを提案しました。
私はデータベースのバックグラウンドを持つアプリケーション開発者であり、アプリケーション開発についてもそうです。偏見があるかもしれませんが、DBでこのロジックを使用することは悪い考えのようであり、私が言及していることを証明または不承認にするためのドキュメントを見つけることができません電車の線路に車を乗せて荷物を引っ張るように。
私の質問は次のとおりです。正規表現検索、CLOB 内のデータの検索と置換、DOM トラバーサル、再帰について話しているとき、DB (Oracle、DB2、MySQL、SqlServer) はどのくらいうまく機能しますか? 同じ問題について、Java、PHP、C# などのプログラミング言語と比較してください。
編集
だから私が探しているのは、特に文字列の検索と置換、正規表現の検索と置換について、DBMS と比較した特定のプログラミング言語の比較/ランタイム分析に関するドキュメントです。XML Dom トラバーサル。再帰的なメソッド呼び出しでのメモリ使用量。特に、10 ~ 100 GB のデータに遭遇したときのスケーリングの良さです。
r - 範囲内の数値を係数で置き換える
一連の整数(年齢)であるデータフレーム列が与えられた場合、整数の範囲を順序変数に変換したいと思います。
現在のコードが機能しません。どうすればよいですか?
r - ファイルから特定のパターンが一致する行を読み取ります
タブ区切りのファイルがあり、それぞれにタイトルが付いた複数のテーブル(たとえば、「Azuay \ n」、「Bolivar \ n」、「Cotopaxi \ n」など)があり、各テーブルは2つの改行で区切られています。R内で、このファイルを読み取り、「Bolivar」などに対応するテーブル(つまり、指定された行)のみを選択し、「Cotopaxi」に対応する下のテーブルと「Azuay」に対応する上のテーブルを無視するにはどうすればよいですか。
NB。Rの外側のテーブルを変更したくない。
データは次のようになります。ファイルはタブ区切りです。
java - 集計およびスライディング ウィンドウの実装のための Java フレームワーク
イベント ストリームと key-val ストレージがあります。値のサイズは 4Kb に制限されています。イベント レートはそれほど高くありません。1 日に最大数百です。
この値には、データ構造のシリアル化された表現を格納する必要があります。これは、3 か月間にわたって集計されたイベント数を読み取り、格納、および更新するための効率的なメカニズムを提供し、日次および週次の集計と 1/2 時間のスライディング ウィンドウを使用します。
このソリューションでは、単純なイベント数の集計とイベント数の標準偏差の両方に対して、次のタスクを効率的に実行する必要があります。(下記のすべてのタスクの最大期間は3 か月です):
- 一定の更新 (怠惰な方法で - 対応するイベントが到着すると) - 最新の計算された集計が古すぎる場合 - 古いデータをスローして新しい集計を作成します
- 最新の計算された集計が古すぎる場合に備えて、読み取り要求 (ユーザーが特定のユーザーのイベント数、単一ユーザーのイベント数の標準偏差などの情報を要求する) によってトリガーされる更新 - それらをスローする
上記の実装を支援できるJavaオープンソースフレームワークはありますか?
また、デザインの推奨事項もいただければ幸いです: デザイン パターンなど。
このソリューションは、標準の Java API を使用してゼロから実装することは難しくありませんが、実行する前に、オープン ソース フレームワークの提案 (あれば) をいただければ幸いです。
ソリューションのグーグル検索は、いくつかの理論的な記事、SQL ベースのソリューション、および IBM ( SPLと呼ばれる非オープン ソース ツールキット) を除いて、どこにも私を導きませんでした。
matlab - Matlab で文字列をコンマで区切る
Matlab でテキスト ファイル内の文字列をコンマで区切ろうとしていますが、これまでは "csvwrite" と "dlmwrite" を使用してきました。
一般に、次の形式を取ります。
明確にするために、私がやろうとしていることはこれです:
次のようなテキスト ファイルを有効にします。
これに:
matlab - MATLAB でのエラー処理と補間
現在、データが半球を「反転」し、本来あるべきものの逆を記録するモーションセンサーからのエラーを検出するMATLABスクリプトに取り組んでいます。これに加えて、この「反転」プロセス中にセンサーが値を記録し続ける移行期間があります。
以下に例を示します (x 軸は時間 (サンプル)、y はセンサーからセンサーまでの距離 (インチ) です)。
私の現在の進行状況は次のとおりです。
データ エラーは抑制されていますが、残りのデータ セットとはまだ一致していません。誰かが改善する方法を提案できますか?
私のコードは次のとおりです。
php - 複数の CSV ファイルにわたるレポート
これは漠然とした質問かもしれません。毎日、それぞれに約50万行の4つのCSVファイルが与えられます。日次レポートを作成するには、それらに対して「結合」および「場所」と同等の RDMS 操作を実行する必要があります。たとえば、ワークフローは次のようになります。
- ID を持つ列に基づいて 2 つの CSV ファイルを結合する
- 日付列に基づいてデータセットを絞り込む
- いくつかの where 条件に基づいて、フィルター処理された新しいデータセットを別の CSV ファイルと結合します
- より多くの基準に基づいてそれらをさらにフィルタリングします
- .... // 繰り返す
- 最終的なデータセットを CSV ファイルに出力する
私はPHPスクリプトを書くことを考えていました:
- 各 CSV ファイルを MySQL などのリレーショナル データベースにロードする
- SQL を使用して結合条件と where 条件を実行する
- 結果を一時テーブルにロードする
- 2と3を繰り返す
- 最終データをテーブルにロードする
- テーブルを CSV ファイルにエクスポートします。
最善のアプローチは何だと思いますか?
java - ext を開始できる単純な Java ベースのワークフロー マネージャー/データ ワークフロー。アプリケーション、Web サービスの呼び出しなど
まず、スタックオーバーフローに私のような質問が既にある場合は、申し訳ありませんが、見つけることができませんでした。実際、必要なソリューションを検索するためにどのタグを使用できるかわかりません。
基本的に、プロセス全体で複数のツール/アクションを使用してデータ (オブジェクト) フローを管理できるツール/ソフトウェアが必要です。もちろん、既存の BPM/ワークフロー プラットフォーム ツールの 1 つはおそらくそれを行うことができますが、私の要件には複雑すぎるようです。
JPA/Hibernate で構築された「静的」データ モデルがあります。次に、別の処理関数を使用するために、その静的モデルを変更する必要があります。その関数は、一部の Java クラス、Web サービス、または外部アプリケーション (バッチ モードをサポートする) である可能性があります。その後、これらの関数からの出力をキャッチし、いくつかの視覚化を行い、いくつかのチャートを描画する必要があります。これらの処理関数はすべて静的モデルにアクセスでき、その特定のモデルに変更できるため、変更する必要はありません。それらに入力を渡します。一方、それらの出力は、メインの「ワークフローマネージャー」によってキャッチされる必要があります。
もう1つ、プロセス全体がユーザーの操作なしで自動的に実行される必要があります(将来変更される可能性がありますが、今のところ見て、提示してください)。プロセスを開始する前に、管理者はどの「処理機能」を使用するかを定義する必要があります。もう1つ...データベースの状態が変更されたときにプロセス全体がトリガーされた場合が最善ですが、それは重要ではありません。たとえば、Webサービスを呼び出して開始できます。
問題は、jBPM や Activiti などの既存の BPM/ワークフロー ツールのいずれかを使用するか、単純な「ワークフロー マネージャー」を独自に作成するか、jBPM/Activiti よりもはるかに単純な既存のツールを使用するか (何かありますか?) です。 . もちろん、私は最も簡単なアプローチを好みます...
フィードバックをお寄せいただきありがとうございます。
php - 私の日付に関するケースでPHPで大きな配列を処理するのに最適
PHP には大きな配列があり、約 168000 個のキーと値があります。キーに日付(Ymd)と時、値に数値があります。したがって、値は単なる数値です。キーは Ym-d_H 形式です。配列は次のようになります。
先月、昨年、今年、今月などの合計を計算する必要があります。どの方法が最適ですか? 提案してください。
awk - awkで多くの列を再配置する
800 を超える列を含むファイルがあり、いくつかの穏やかな列の再配置を実行したいと考えています。特に、いくつかの列を削除して、最後の列を最初の列にする必要があります。
再配置を実行する単純な awk スクリプトをプログラムで生成します。次のようになります。
1台のコンピューターでは、これは問題なく機能します。別のコンピューターでは、数百の列を選択した場合にのみ機能しますが、それ以上の列を選択するとコア ダンプが発生します。これをよりポータブルにする方法はありますか?