問題タブ [data-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - JSPのXMLデータの処理
私はフォーム/計算機を持っており、それ自体にいくつかのデータを投稿します。このデータはサーブレットをディスパッチすることによって計算され、結果はxmlとして出力されます。ディスパッチャコードを以下に示します。
しかし、私が現在行っていることにいくつか問題があります。まず、ローカルだけでなくリモートURLを使用することは可能ですか?また、データを処理するにはどうすればよいですか。これはサーブレットであるため、XMLドキュメントと呼んで、DOMを使用して必要なデータを取得することはできないと想定しているためです。
このJavaのものはまったく新しいので、正確に何をグーグルで検索すればよいかさえわからないので、私は現在の方法で暗闇の中で撮影しているようなものです。どんな助けや指示も大歓迎です:P乾杯
c - cのファイルから特定のデータ列を読み取るにはどうすればよいですか?
みなさん、こんにちは。
私はCプログラミングの初心者です。私はこの問題を抱えており、かなりの進歩なしにかなりの時間を費やしてきました。
私の問題はこう述べられています:
拡張子が(.msr)の一連のファイルがあります。これらのファイルには、日付、時刻、温度、圧力など、セミコロンで区切られた10個を超えるパラメーターの測定値が含まれています。データ値の例を以下に示します。
各ファイルの名前はREG_2010-03-03、REG_2010-03-04、REG_2010-03-05、...であり、すべて1つのファイルに含まれています。
各ファイルから日付情報(この場合は2010-03-03、列3、列6)を抽出したいと思います。
3列と6列のそれぞれの統計的平均を求めます。
次に、結果を新しいファイルに保存します。このファイルには、日付と、さらに分析するために上記の列の計算された平均のみが含まれます。
それらはcで書かれることになっています。
私は本当にこれを始めるためにこれへのあなたの援助を数えています。
よろしく
c - ディレクトリに保存されているさまざまなファイルを読み取り、それらのデータを 1 つのファイルに保存する方法
これは私が以前に尋ねた質問のフォローアップであり、ここにいる何人かの人々の助けを借りて、私が書きたい関数を開始することができましたが、まだ完成していません. ここに私の以前の質問があります: 拡張子 (.msr) を持つ一連のファイルがあります。これらのファイルには、日付、時刻、温度、圧力などの範囲の 10 個を超えるパラメーターの測定数値が含まれており、セミ区切りになっています。結腸。データ値の例を以下に示します。
各ファイルの名前は REG_2010-03-03、REG_2010-03-04、REG_2010-03-05、... で、すべて 1 つのファイルに含まれています。
- 各ファイルから日付情報を抽出したいのですが、この場合は 2010 年 3 月 3 日、列 3、列 6 です。
- 3 列と 6 列のそれぞれの統計的平均を見つけます。 3.次に、日付のみを含む新しいファイルに結果を保存し、さらに分析するために上記の列の計算された平均を保存します。
今の私の質問: 拡張子が .msr の 30 個のファイルを含むディレクトリを開くことができるようにしたいです。ソースファイルを開き、その中の各ファイルについて、前に説明したように必要な情報を抽出し、上記で読み取った各ファイルについて、日付 (各ファイルで均一) と列 3 と 6 の平均値を保存します。したがって、宛先ファイルには、日付、平均 (3 列目) および平均 (6 列目) の 3 つの列が各行に含まれ、スペースで区切られ、合計 30 行になります。以下は私が始めたコードです。これを実装する方法についてのガイドをいただければ幸いです。
上で概説したように。これが私が達成したいことの概要です
1) ファイルを含むディレクトリを開きます (ここでは USB KEY です)。2) その中のすべての msr ファイル名を読み取ります。3) 各 msr ファイルを開きます。4) 日付 (ファイルの最初の列) を抽出し、時刻と区切り記号を無視します ( 5) データ 1 を抽出します (3 列目のデータ) 6) データ 2 を抽出します (6 列目のデータ) 7) 計算します3 列目と 6 列目の平均。8) ファイルへの出力 (日付、平均 3 列目、平均 6 列目) 9) msr ファイルを閉じる 10) ディレクトリを閉じる (可能な場合)
php - 複数のソース フィードの解析およびデータ統合デーモンを構築する方法は?
私は、いくつかのことをしなければならないスクリプト (またはもっと良いのはデーモン) を書くタスクを与えられています:
- 複数の入力 xml フィードから最新のデータをクロールします。当面は15~20フィード程度ですが、将来的には50フィードまで増える可能性があると思います。フィードのサイズは 500 KB から 5 MB の間で変動します (10 MB を超えることはほとんどありません)。フィードは標準化された形式ではないため、データが単一の共通形式に統合されるように、特定のソースからのフィードごとにフィード パーサーが必要です。
- フィードから抽出されたデータのすべての単一ユニットが引き続き利用できるように、データをデータベースに保存します。
- データは時間とともに変化するため (たとえば、情報は少なくとも 1 時間に 1 回更新されます)、変更されたデータのアーカイブを保持する必要があります。
この場合、管理が難しいことが証明されているもう 1 つのこと (私はすでにいくつかのソリューションをハックしました) は、ステップ 2 でデータベースがクロールに遅くなり始めることです。これは、複数のテーブルにデータを挿入する SQL クエリの量が原因で、データベースに依存するシステムの残りの部分に影響します (これは、複数のサイトがホストされている専用サーバーです)。そして、ステップ3にさえ到達できませんでした...
この問題にどのように取り組むべきかについてのヒントはありますか? 注意すべき注意点は?この問題を解決するのに役立つものは何でも大歓迎です。
ありがとう!
algorithm - このデータをどのようにフィルタリングすればよいですか?
グラフ化する必要がある一連のデータ ポイントがいくつかあります。グラフごとに、エラーのためにいくつかのポイントを除外する必要がある場合があります。以下に例を示します。
丸で囲まれた部分はデータのエラーです。
必要なのは、このデータをフィルタリングして、次のように悪い点を平らな線に置き換えることでエラーを排除するアルゴリズムです。
エラーポイントの検出に特に優れたアルゴリズムはありますか? 私を正しい方向に向けるヒントはありますか?
編集: エラー ポイントは、両側のデータと一致していないように見えるポイントです。ジャンプ後のデータが一貫しているように見える限り、大きなジャンプが発生する可能性があります。グラフの端にある場合、大きなジャンプはおそらくエラーと見なされます。
java - データ処理のタイムゾーンをどのように処理しますか?
人々がこの問題をどのように解決したのか興味があります...私は、顧客のためにその日のデータに基づいてレポートをまとめる一連の夜間実行ジョブを持っています。彼らは現在、タイムゾーンのサポートを求めています。
レポートの 1 つは.. 昨夜は x 件の注文がありましたが、昨夜はタイムゾーンによって異なる可能性があります。データを整理または処理して、タイムゾーンを考慮してその作業を容易にする最善の方法は何ですか?
ありがとう
data-storage - プログラムの反復間でデータを保持するための一時ストレージ?
私は次のように動作するアプリケーションに取り組んでいます:
- 多くのソースからデータをフェッチし、約 500,000 ~ 1,500,000 レコードのプールを生成します (時間/日によって異なります)。
- データが解析されます
- データの一部は、既存のデータと比較する方法で処理され (データベースから読み取られます)、計算が行われ、データベースに保存されます。ただし、データベースに格納する必要がある結果のデータセットは、(元のデータ セットと比較して) サイズがはるかに小さく、5,000 ~ 50,000 レコードの範囲です。このプロセスでは、ほとんどの場合、既存のデータが更新されます。おそらく、さらにいくつかのレコードが追加されます。
- 次に、ステップ 2 のデータを何らかの形で、どこかに保持する必要があります。そうすれば、次回データがフェッチされたときに、データベース内の既存のデータに触れることなく、計算を実行するために使用できるデータ セットが存在します。このデータは失われる可能性があり、かけがえのないものではありません (必要に応じて重要な情報をデータベースから読み取ることができます) が、次回のプロセスが高速化されることを指摘しておく必要があります。
アプリケーション コンポーネントは、(同じネットワーク内の) 異なるコンピューターから実行できます (そして実行される予定です)。そのため、ストレージは複数のホストから到達可能である必要があります。
memcached の使用を検討しましたが、1 レコードは通常 200 バイト以上であり、1,500,000 レコードがある場合、300 MB 以上の memcached キャッシュになると推測されるため、そうすべきかどうかはよくわかりません。 ..しかし、それは私にはスケーラブルではないようです-データがその量の5倍だったらどうなるでしょうか? 反復間でデータを保持するためだけに 1 ~ 2 GB のキャッシュを消費する場合 (これは簡単に発生する可能性があります)?
問題は、この種の処理に最も適した一時ストレージ メカニズムはどれかということです。mysql 一時テーブルを使用することは考えていません。それらがセッション間で保持され、ネットワーク内の他のホストによって使用されるかどうかわからないためです...他の提案はありますか? 考慮すべきことはありますか?
regex - perlを使用して1行に数回現れる角括弧の間にデータを抽出するにはどうすればよいですか?
角括弧で囲まれたデータの複数のインスタンスを含む行があります。
誰かがgoo正規表現を持っていますか?だから私は使うことができます
ありがとう!
linux - awkを使用せずにシェルでペアのリストをテーブルに変換する
次のようなタブ区切りのペアのリストがあります。
Linuxコマンドラインツールを使用して、テーブルに変換したい:
手動で最小限のスクリプトでこれを行うことはできますか?
注:これをコーディングする方法を知っています。ありがとうございます。質問は既存のツールに関するもので、おそらくスクリプトの接着剤は最小限です。また、awk
プログラムは、非常に短いものでない限り、「スクリプト」とみなされます。
注 2:これは学習用の質問です。解決策が短いか長いかはあまり気にしません(ただし、短い方が望ましいです)。この問題を解決する他の方法を学びたいです。
この問題を最速で解決したいのであれば、ここでこの質問をするのではなく、私が最もよく知っている言語で 3 行を書くのに 30 秒を費やします。
python - 非常に大きな(30GBを超える)テキストファイルを処理し、進行状況を表示するための最適な方法は何ですか
【初心者の質問】
やあ、
私は30GBをはるかに超える巨大なテキストファイルに取り組んでいます。
各行でいくつかの処理を行ってから、JSON形式でデータベースに書き込む必要があります。「for」を使用してファイルとループを読み取ると、データの処理の約10%後にコンピューターがクラッシュし、ブルースクリーンが表示されます。
私は現在これを使用しています:
また、これまでに処理されたデータ量の全体的な進捗状況をどのように表示できますか?
どうもありがとうございました。