“data-manipulation”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

212 参照

python - Pythonistas、MySQL でデータを上から下、左から右に移動するにはどうすればよいですか (ID ごとに複数の値を考えてください)。

当面のタスクは、表 1 に示されているデータを表 2 のデータに移動することです。

表1）

Val 列は、各 ID の一意の値の数によって異なります。この場合は 3 ですが、実際には 20 になることもあります。

表 (2)

Val列の値が小さい場合（この場合は3）、どのように対処していますか：

一時テーブルを作成します。

次に、データを挿入してテストします。

次のようになります (手動で Val 列を作成する必要があります)。

これが多くの手作業を伴う退屈なプロセスであることは承知しています。これは、私が Python に恋をする前のことです。この問題に対する Python の効率的な解決策は本当にありがたいです!

これは私がこれまでに持っているものです

2010-11-03T15:23:14.717

0 投票する

6 に答える

6197 参照

regex - Vim の検索と置換、定数の追加

私はこれがロングショットであることを知っていますが、私は巨大なテキストファイルを持っており、特定の数値をいくつかの基準に一致する他の数値に追加する必要があります.

例えば。

そして、これを（たとえば1.15を追加して）次のように変換したいと思います

通常、これは Python で行いますが、Windows マシンではあまり多くのものをインストールできません。私はVimを持っています:)

regex vim data-manipulation

2010-11-16T11:16:09.773

0 投票する

3 に答える

3584 参照

python - データ認識、解析、フィルタリング、および変換-GUI？

データ変換を行うための非クラウドベースのオープンソースアプリを探しています。ただし、データ変換用に構築されたばかりのキラー（つまりキラー）アプリの場合、最大$1000を費やしても構わないと思っているかもしれません。

Perl、Kapow Katalyst 、 PentahoKettleなどを見てきました。

Perl、Python、Rubyは明らかに言語ですが、データを処理するためだけのフレームワーク/DSLを見つけることができません。つまり、これらは実際には優れた開発環境ではありません。つまり、正規表現、入出力（CSV、XML、JDBC、RESTなど）を構築するためのGUIが構築されておらず、データの行と行をテストするためのデバッガーもありません。悪くはありませんが、私が探しているものではありません。これは、複雑なデータ変換用に構築されたGUIです。そうは言っても、GUI /アプリファイルがスクリプト言語であり、人間が読めないXML/ASCIIファイルに保存されているだけではないのであればいいのですが。

Kapow Katalystは、HTTP（HTML、CSS、RSS、JavaScriptなど）を介してデータにアクセスするために作成されています。非構造化テキストを変換するための優れたGUIを備えていますが、それはコアバリューの提供ではなく、非常に高価です。ドキュメントの名前空間パスをトラバースするという問題はありません。構文は同じように見えるので、バックエンドのXPathだけだと推測します。

Pentaho Kettleには、最も一般的なデータストアの入力/出力用の優れたGUIがあり、データ処理を独自に処理します。これは大丈夫で、学習曲線が小さいだけです。Kettleのデバッガーは、データが見やすいという点で問題ありませんが、エラーと例外は出力にスレッド化されておらず、問題を実際にデバッグする方法はありません。つまり、出力/エラー/例外をリロードすることはできませんが、システムフィードバックを表示することはできます。とはいえ、ケトルのデータ変換は_______です。「不可能な場合は、JavaScriptで変換を記述してください」と完全に戸惑っていたので、何かが足りないように感じたとしましょう。うーん、何？

それで、何か提案はありますか？私は実際には変換を指定していないことを認識してください。ただし、データの改ざんに実際に製品を使用している場合は、それについて知りたいと思います。優れていると思います。

ただし、一般的には、現在、10〜100列で1000〜100,000行を処理できる製品を探しています。データセットをプロファイリングできれば、それは非常にクールです。これは、Kettleのような機能ですが、あまりうまくいきません。また、単体テストを組み込みたいのですが、これは、データのコントロールセットを構築し、コントロールセットに対して行われた変更を実行できることを意味します。次に、ビルドを変更せずに変換をビルドするときに、行と列を選択的に除外できるようにしたいと思います。たとえば、変換を介してデータセットを実行し、結果をフィルタリングすると、次の実行では、これらのセットは最初の「論理的」発生時に自動的にブロックされます。つまり、「調べる」データが少なくなり、強化された反復ごとの実行時間が短縮されます。クレイジーなのは、私が dアプリがそれらを追跡している行/列を除外します（そして出力は除外されました）。ユニットテスト/変更を強調表示しました。アプリケーションログに影響を与える変更を加え、「ブランチを壊す」ことに基づいて単体テストを追跡する機能がある場合は、警告が表示され、データが保存されているブランチをダンプします...および/または追跡します次世代の出力の違いの主キー、またはファジーロジックを使用してそれらを一致させようとすることさえできます。そして、はい、私はこれが夢のようなものであることを知っています、しかしねえ、私が今まで見たことがない何かがそこにある場合に備えて、私が尋ねると思いました。

コメントしてください。質問に答えたり、追加情報を提供したりできます。

python ruby perl kettle data-manipulation

2010-12-03T01:42:22.243

0 投票する

5 に答える

38423 参照

windows - テキストから列を切り取る Windows コマンド

次の内容がファイルに保存されます。

Windows コマンドラインで 5 列目を抽出する方法はありますか?

UNIXcutコマンドのようなもの。

windows command-line data-manipulation cut

2010-12-14T16:56:31.190

0 投票する

4 に答える

944 参照

excel - Excelデータを回転させる方法

これは、私がいつも疑問に思っていた、私の頭に浮かんだ一般的な質問です。Excel でデータを回転する必要があったことが何度かありました。たとえば、次のようになります。

で始まります：

に変換:

これを行うための合理的な方法を見つけたことはありません。私が今考えることができる解決策は次のとおりです。

マクロを書きます (yuck)
手動でコピー/貼り付け (yuck)
たぶんピボットテーブルマジック？（私はこれが可能であるとは思わない）
を使用した巧妙な数式INDEX

他の解決策はありますか、おそらくいくつかの隠された組み込み機能がありますか?

excel excel-formula data-manipulation

2011-02-09T17:53:10.330

0 投票する

2 に答える

267 参照

mysql - 複雑な MySQL データ構造/操作の問題

初めまして、長々と失礼いたしました。これはちょっと複雑です（少なくとも私にとっては）。

データベースの背景:

製品、変数、および価格のテーブルがあります。「製品」とは、製品に関する主要な情報 (説明、タイトルなど) です。「価格」には、各価格に関する情報 (価格、コスト、必要な最小数量、送料など) があります。一部の製品には複数の価格が設定されている場合があります (たとえば、10 インチのウィジェットは 12 インチのウィジェットとは異なる価格です)。 . 「可変」とは、色、サイズなど、価格が変わらない製品のバリエーションです。

当初 (約 7 年前にこのデータベースを構築したとき)、同じ製品の価格リストの最初の価格に変数情報をパイプで区切られた形式で格納していました (はい、わかっています、badbadbad)。これは一般的に機能しましたが、変数がすべての価格で一貫していない場合があるという問題が常にありました。

たとえば、ウィジェット (製品) は 10 インチまたは 12 インチで、それぞれ 10 ドルと 20 ドル (価格) で販売されます。ただし、10 インチのウィジェットは青と赤 (変数) で使用できる場合がありますが、12 インチのウィジェットは赤でのみ使用できます。「Red (10" ONLY)」のように、不適合な変数に括弧付きのステートメントを少し追加することで、この問題を改善しました。この種の機能は機能しますが、顧客は常にそれほど賢くはなく、顧客が選択したときに間違いを修正するために多くの時間が費やされます。赤の 12 インチのウィジェット。

それ以来、私はデータベースの最新化を任されており、変数を独自のテーブルに配置し、変数をより動的にして特定の価格との一致を容易にし、ダミープルーフの在庫を維持することにしました (悪夢）。

私の最初のステップは、既存のすべての変数を新しい変数テーブル (およびラベルテーブルですが、それほど重要ではないと思います) に処理するために、(変換を行うときのために) テストデータベースにストアドプロシージャを記述することでした。変数を効果的に解析し、正しい製品 ID と変数テーブルで最初に関連付けられた製品 ID をリストにしました。ただし、(少なくともデータベースの最初の変換では) 各変数を特定の製品の各価格に関連付けてリストする必要があるため、これは問題の一部にすぎないことに気付きました。

これを行うために、次のように別のテーブルを作成しました。

これは、変数テーブルを使用した多対多です。

問題:

私の問題は、行を作成する方法がわからないことです。価格表と変数表に左結合を作成して、必要なすべてのデータを取得できます (と思います)。その方法がわかりません。私のSQLは（mysql 5.0）です：

これにより、すべての priceid と productid、および一致する変数とラベル ID が取得されます。これは、次のような場合など、特定の場合に適しています。

これで、priceid 2 と variableids 10、11、12、およびその製品の priceid 3 のレコードを作成する必要があることがわかったからです。ただし、変数のない製品、1 つの価格で複数の変数を持つ製品、および複数の価格で変数のない製品についても、このデータセットから結果を取得します。たとえば、次のようになります。

上記のデータセットを使用して、次のように tblpricesvariables テーブルにエントリを追加します。

処理するレコードが何千もあるため、明らかにこれを手動で行うことは答えではありません。このタイプの操作を処理できる sproc を考え出さなければ、誰かが少なくとも私を正しい方向に向けることができますか? また、このデータをより適切に整理および/または構造化する方法についてのコメントも歓迎します。

これをすべて読んで、私を助けてくれてありがとう。

mysql database-design stored-procedures data-manipulation

2011-02-10T19:59:42.530

0 投票する

2 に答える

9665 参照

r - 複数の変数と時不変を使用して、データフレームをワイドからパネルに再形成します

これは、Stataが1つのステップで処理するデータ分析の基本的な問題です。

2000年と2005年の時不変データ（x0）と時不変データ（x1、x2）を使用してワイドデータフレームを作成します。

st

パネルのように形を整えて、データが次のようになるようにします。

私はreshapestでこれを行うことができます

私の主な懸念は、数十の変数がある場合、上記のコマンドが非常に長くなることです。1stataつは単に入力します：

Rにそのような単純な解決策はありますか？

r panel stata reshape data-manipulation

2011-03-13T02:46:56.607

0 投票する

0 に答える

165 参照

data-mapping - リスト項目を一致させるためのアプリ/GUI?

あるデータベーススキーマから別のデータベーススキーマにデータを移行しています。古いものから新しいものまでフィールドを一致させなければなりません。

左側にテーブルとフィールドのスキーマのリストがあり、右側に他のスキーマがある単純なアプリまたは GUI インターフェイスが必要です。左側のアイテムを右側の別のアイテムに接続する線が欲しいです。簡単なドラッグアンドドロップ機能を使用して、相互に関連付けたいと考えています。

フィールドが常に 1 対 1 で一致するとは限らないことは理解していますが、これだけで十分です。

テキストエディターやスプレッドシートでこれを行うこともできますが、もう少し堅牢な UI が必要です。下の左右関係のアライメントを崩さずに片側に新しいものを入れるスペースを作るのが難しくなります。

これに役立つデスクトップまたは Web アプリはありますか?

data-mapping data-manipulation

2011-03-23T19:18:53.173

0 投票する

1 に答える

1876 参照

r - R: ローリングウィンドウからデータフレームを作成する

次の構造のデータフレームがあるとします。

「DF」を次の構造のデータフレームに変換する最も効率的な方法は何ですか?

w は、データフレーム「DF」を通過する長さ 2 のウィンドウです。ウィンドウの長さは任意である必要があります。つまり、長さが 3 の場合

データフレームには任意の数の列、つまり w、x、y、z などを含めることもできるため、この問題に少し困惑しています。

/edit 2: xts はデータポイントごとに複数の観測値を処理していないように見えるため、edit 1 は少し不合理であることに気付きました

r data-manipulation data-management rolling-computation

2011-04-04T19:32:42.237

0 投票する

3 に答える

1880 参照

r - データフレームを重複するデータフレームに分割する

次のように動作する関数を作成しようとしていますが、非常に困難であることがわかります。

あなたが次のようなことを試みたらどうなるかについてはあまり考えていませんOverLapSplit(DF,nsplits=2,overlap=1)

多分次の：

ありがとう！

r dataframe data-manipulation data-management

2011-04-13T18:23:50.580

問題タブ [data-manipulation]

これは私がこれまでに持っているものです

Reference