問題タブ [merging-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1821 参照

java - ハッシュマップを含む配列リストを組み合わせる

こんにちは、ハッシュマップ形式 (キーと値のペア) のデータを含む 2 つの異なる配列リストがあります。ここで、両方のリストの順序を維持しながら、これらの 2 つのリストを 1 つに結合する必要があります (そのため、位置 [0] にある両方のリストの参照要素は、新しいリスト内で 1 つにとどまる必要があります)。これらの情報をリストビューに表示するにはこれが必要ですが、これまでのところ2つをマージすることしかできませんでしたが、順序が正しくありませんでした(最初のリストは新しいリストの前半を取り、2番目のリストからの参照は後に続きます)。誰かが私を助けてくれることを願っています:)

0 投票する
0 に答える
1782 参照

spss - SPSS での大きなファイルのマージの問題

500 を超える変数を持つ 4000 を超えるケースの大規模なデータセットがあります。この変数のセットを、ほとんど同じケースを含む別のデータセットに追加したいと考えていますが、変数は約 10 個しかありません。

どちらのデータセットにも、ケースを照合できるようにする ID 変数が含まれています。大きい方のデータセットはキー付きテーブルです。小さい方のセットにはないケースがあり、私にとっては興味がないからです。

ファイルのマージには非常に満足していますが、新しいデータセットを見ると問題が発生します。変数はそこにありますが、すべての値が欠落しています。これは、アクティブなデータセットに追加された変数にのみ適用されます。キー変数に重複があるかどうかを確認しましたが、重複していませんでした。

なぜこれが起こるのか、これを修正する方法があるのだろうか?この問題が発生する前に、これを非常に頻繁に行ったことがあると付け加えることができます。

0 投票する
1 に答える
114 参照

ruby - Ruby、遅延シーケンスのマージ

Let i have a lazy sequence: s1, s2, s3, ..., sN、たとえば次のように、降順でない数字を使用します。

s1 = [1, 1, 2, 3, 3, 3, 4, .....] s2 = [1, 2, 2, 2, 2, 2, 3, 3, 4, ....] s3 = [1, 2, 3, 3, 3, 3, 4, 4, 4, ....]

私がやりたいことは、それをマージし、同様のアイテムでグループ化し、いくつかの関数で処理することです。たとえば、タプルのリストを生成します(数値、カウント)

私の場合:

merge(s1, s2, s3)生成する必要があります[ [1, 4], [2, 6], [3, 9], [4, 5], .... ]

そのようなシーケンスを処理する宝石などはありますか

0 投票する
2 に答える
9051 参照

r - データフレーム列の因子水準の組み合わせ

dataカテゴリ変数を表す「Project License」という名前の列を持つデータ フレームがあるため、R 用語ではfactorです。私は新しいコラムを作成しようとしています。ここでは、オープン ソース ソフトウェア ライセンスが私の分類ごとにより大きなカテゴリにまとめられています。ただし、その因子のレベルを結合 (マージ)しようとすると、すべてのレベルが失われるか変更されない列が表示されるか、次のようなエラー メッセージが表示されます。

factor(data[["Project License"]] のエラー、レベル = 分類、ラベル = c("非常に制限的"、: 無効な「ラベル」; 長さ 4 は 1 または 6 である必要があります

この機能のコードは次のとおりです(関数から抽出):

私は他のアプローチ(「R Inferno」のセクション 8.2.5 で説明されているものを含む)も試しましたが、これまでのところ成功していません。

私は何を間違っていますか? この問題を解決するにはどうすればよいですか? ありがとうございました!

更新 (データ):

更新 2 (データ):

0 投票する
2 に答える
142 参照

algorithm - n 個のファイルを同時に 1 つに結合するアルゴリズム

タイトルに記載されている問題に対する水平スケーリングの解決策を見つけようとしています。

問題のより詳細な説明は、次のようになります。メッセージ キュー Web サービスから、どこかにアップロードされたファイルへの URL を含むメッセージを読み取り、ファイルをダウンロードして解析し、そのコンテンツの場所がコンテンツに依存するファイルに追加します。 .

大量のメッセージがキューに入るため (毎秒 100 メッセージを連続して想定)、複数のワーカーで同時処理を実行する場合、ファイルへの制御されたアクセスがない場合、データが失われる可能性があります。

関連する特定の情報は、メッセージのバッチ内で、2 つのメッセージが同じ宛先ファイルに対するものである可能性は低いということです (これは、メッセージの 1% で均等に分散されると仮定します)。メッセージとそのファイルは、キューからメッセージを読み取る速度をわずかに上回っているため、衝突の可能性がかなり低くなります。

確率が非常に低い場合は、一部のデータを失うことは許容できるかもしれませんが、正確な数はわかりません。

これに使用できるアルゴリズムまたは設計パターンは何ですか?

いくつかの詳細:

  • 1,000 万個の異なる出力ファイル
  • 1 日あたり 500 万通のメッセージ
  • ファイル ストレージはサードパーティの Web サービスによって提供され、無制限の同時読み取り/書き込みが可能です。
  • メッセージの順序は重要ではありません
  • メッセージにはファイルへの URL のみが含まれます (GUID を名前として含む)
0 投票する
2 に答える
38 参照

sql - SQL Server 2012 でデータの冗長性を減らすために時間枠に基づいて行をマージする

次の SQL の問題があり、実際にこれを行う最も効率的な方法を探しています。次のテーブルがあるとします。

冗長なデータ量に気付きましたか? これは、企業がときどきサンプリングされるため、期間の長さが実際にはランダムであるためです。

問題は、NumberOfEmployees、NumberOfMachines などの変数が同じで、StartPeriod と Endperiod が異なる場合にのみ、行をマージするにはどうすればよいかということです。もちろん、開始期間を最も早いものに、終了期間を最も遅いものに置き換えたいと思います。

r は単なる指標であり、データベース内の変数ではありません。この場合、1 と 2 はマージされますが、値が異なるため (つまり、従業員数が 30 人ではなく 31 人であるため)、3,4 は保持されます。

私の意見では、これは非常に難しい問題であり、SQL がこれを実行できるかどうかさえわかりません。

結果の出力は次のようになります。

すべてに感謝します!