問題タブ [data-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1037 参照

language-agnostic - CPUバウンドアプリケーションとIOバウンド

大量のデータを使用する「数値計算」スタイルのアプリケーションの場合(「数百MB、ただしGBには収まらない」、つまりOS以外のメモリにうまく収まる)、すべてのデータをメモリに読み込むのは理にかなっていますか最初に処理を開始する前に、関連する大規模なデータセットの読み取り中にプログラムのIOバウンドを回避し、代わりにRAMからロードしますか?

この答えは、異なるデータバッキングを使用することによって変わりますか?つまり、XMLファイル、フラットファイル、完全なDBMSなどを使用しているかどうかに関係なく、答えは同じでしょうか。

0 投票する
6 に答える
22832 参照

django - Django request.POST のコンテンツをチェックしています

次のような request.POST 経由でデータを受け入れています。

form-0-locationと呼ばれる一連のテキスト入力ボックスからform-5-locationまでのデータを受け入れます。

追加したいのは、 request.POST にこれらの入力フィールドのいずれかにデータが含まれていることを確認するためのチェックです。私の問題は、Django でこれを説明するための正しい用語がわからないことだと思います。

私は PHP でそれを行う方法を知っています: $_POST の中を調べて、これらのフィールドの少なくとも 1 つが空でないことを確認しますが、Google を検索して正しい答えを見つけることができないようです。

これらの入力フィールドにデータが見つからない場合は、ユーザーをメイン ページにリダイレクトしたいと考えています。

0 投票する
4 に答える
313 参照

c++ - 処理中にデータチャンクを書き込む-ハードウェアの制約による収束値はありますか?

1つの大きなファイルのハードディスクからデータを処理していて(処理は高速で、多くのオーバーヘッドはありません)、結果を書き戻す必要があります(数十万のファイル)。

結果をすぐにファイルに1つずつ書き始めましたが、これが最も遅いオプションでした。一定量のファイルのベクトルを作成し、それらを一度にすべて書き込んでから、ハードディスクがそれに注いだすべてのものを書き込むために占有されている間に処理に戻ると、はるかに高速になると思いました(少なくとも何が起こるかと思われます)。

私の質問は、ハードウェアの制約から書き込む必要のあるデータ量の収束値をどうにかして見積もることができるかということです。私にはそれはハードディスクバッファのもののように見えます、私はそのハードディスクに16MBのバッファを持っていて、これらの値を取得します(すべて〜100000ファイルの場合):

それともこれは単なる偶然ですか?

また、書き込みパフォーマンスを一般的に最適化する方法についての経験/経験則にも興味があります。たとえば、より大きなハードディスクブロックが役立つなどです。

編集:

ハードウェアはかなり標準的な消費者向けドライブです(私は学生であり、データセンターではありません)WD 3,5 1TB / 7200 / 16MB / USB2、HFS +ジャーナル、OSはMacOS10.5です。すぐにExt3/Linuxと外部ではなく内部ディスクで試してみます)。

0 投票する
3 に答える
2369 参照

c# - C# での集中的なファイル I/O とデータ処理

大きなテキスト ファイルを処理する必要があるアプリを作成しています (いくつかの異なる種類のレコードでカンマ区切り - データ ストレージ形式を変更する力や傾向がありません)。レコード (多くの場合、ファイル内のすべてのレコードが順番に読み込まれますが、常にではありません) が読み取られ、各レコードのデータが何らかの処理のために渡されます。

現在、アプリケーションのこの部分はシングル スレッドです (レコードの読み取り、処理、次のレコードの読み取りなど)。あるスレッドでキュー内のレコードを読み取り、別のスレッドで処理する方が効率的かもしれないと考えています。小さなブロックで、または利用可能になったときにスレッド化します。

必要なデータ構造やマルチスレッドを適切に実装する方法など、そのようなプログラミングを開始する方法がわかりません。ここでパフォーマンスを向上させる方法について、誰かが何かアドバイスをしたり、他の提案を提供したりできますか?

0 投票する
4 に答える
73330 参照

r - ファイルから選択した列のみをRに読み取る方法はありますか?(`read.table`と`scan`の間の幸せな媒体?)

非常に大きな区切りデータファイルがいくつかあり、ファイル全体のを作成するための時間とメモリを使わずに、Rの特定の列のみを処理したいと考えています。data.frame

私が知っている唯一のオプションはread.table、2、3列だけが必要な場合に非常に無駄になるか、必要scanなものに対してレベルが低すぎるように見えるかです。

純粋なRを使用するか、他のシェルスクリプトを呼び出して列抽出を実行し、その出力でscanまたはread.tableを使用する、より良いオプションはありますか?(シェルスクリプトを呼び出して、その出力をRでキャプチャする方法についての質問につながるのはどれですか?)

0 投票する
4 に答える
10762 参照

javascript - 行内の n 文字ごとに完全な単語の前に「\r」を挿入する正規表現 (基本的にはワードラップ機能)

JavaScript と正規表現は初めてです。テキスト ドキュメントを 1 行あたりの特定の文字数に自動的にフォーマットするか、単語の前に「\r」を付けようとしています。

これは、多くのテキスト エディターに見られる Wordwrap と機能的に似ています。

例えば。1 行に 10 文字が必要です

原文:私の名前はデイビー・ブルーです。

変更:私の名前は \ris Davey \rBlue です。

10 番目の文字が単語の場合、その単語全体が新しい行に配置されます。

次はある程度 /.{1,10}/ で動作するはずだと思います (これで 10 文字が見つかるはずですよね?)

残りはどうしようか迷っています。

助けてください。

0 投票する
4 に答える
1001 参照

java - Hibernateを使用して20K製品をロードし、エンティティを変更し、dbに更新します

データベース内の20K製品を更新するためにHibernateを使用しています。

今のところ、私は20K製品を取り込んで、それらをループし、いくつかのプロパティを変更してから、データベースを更新しています。

それで:

今のところ、標準のjdbcに比べて物事はかなり遅いですが、物事をスピードアップするために何ができますか?

私はここで何か間違ったことをしていると確信しています。

0 投票する
3 に答える
35269 参照

r - Rで欠落/不完全なデータを処理する - NAをマスクするが削除しない機能はありますか?

データ分析を目的とした DSL から予想されるように、R は欠落/不完全なデータを非常にうまく処理します。たとえば、次のようになります。

多くの R 関数には、TRUEに設定すると NA を削除するna.rmフラグがあります。

しかし、関数呼び出しの前に NA を処理したい場合は、次のようにする必要があります。

ベクトルから各「NA」を削除するには:

ベクトルから各「NA」を削除し、「0」に置き換えるには:

データフレームから「NA」を含む各行全体を削除するには:

これらの関数はすべて、「NA」または「NA」を含む行を完全に削除します。

ワークフローの次のステップでは、データ フレームの 'NA' を削除したコピーを作成する必要があるかもしれませんが、その後のステップでは、これらの行を元に戻したい場合がよくあります (たとえば、 「完全なケース」への以前の呼び出しによって行が欠落しているが、その列に「NA」値がない列の列単位の統計)。

私が探しているものについてできるだけ明確にするために: python/numpy には、マスクメソッドを備えたクラスmasked array があり関数呼び出し中に NA を非表示にできますが、削除できません。Rに類似の機能はありますか?

0 投票する
1 に答える
1759 参照

c# - データ クラスタリング アプローチ

画像に表示される 200 点のセットを持つプログラムを C# で作成しています。ただし、ポイントはさまざまな地域でクラスター化する傾向があり、「クラスター化」する方法を探しています。つまり、クラスター化されたポイントの周りに円/楕円を描くことができます。

誰もこれを行う方法を見たことがありますか? K-means クラスタリングについて聞いたことがありますが、C# で実装する方法がわかりません。

お気に入りの実装はありますか?