問題タブ [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
8306 参照

python - パンダでの複数列の因数分解

pandasfactorize関数は、シリーズ内の各一意の値を 0 から始まる順次インデックスに割り当て、各シリーズ エントリが属するインデックスを計算します。

pandas.factorize複数の列で同等のことを達成したい:

つまり、データ フレームの複数の列にある一意の値の各タプルを特定し、それぞれに順次インデックスを割り当て、データ フレームの各行が属するインデックスを計算したいと考えています。

Factorize単一の列でのみ機能します。パンダに複数列の同等の機能はありますか?

0 投票する
1 に答える
943 参照

python - Python - アプリオリ アルゴリズムを実行するためのデータのクリーニング

一連の記事で使用されているすべての単語のマスター リストがあり、各記事内のマスター リスト内の各単語の出現回数を数えようとしています。次に、データに対していくつかの関連付けルールを作成してみます。たとえば、私のデータは次のようになります。

データを次の形式にする必要があります。

私はこの変換を行うのに苦労しています.nltkで遊んでいますが、存在しない単語が含まれているカウントを取得する方法がわかりません. どんな助けでも大歓迎です!

0 投票する
1 に答える
445 参照

user-interface - ユーザーフレンドリーなデータクリーニング

こんなことを聞​​くのはばかげているように感じますが、データ クリーニング用の GUI ツールが必要です。

業務を簡素化できるのであれば、ある幹部が私のデータ クリーニング作業の一部を引き継ぐことを申し出てきました。私は R を使用してデータをクリーンアップし、Awk を使用してデータを分割してきましたが、これは彼の技術的能力や関心を超えています。私は、すべてを一度に実行できる Python スクリプトを作成することを提案しました。彼はむしろ GUI を使用したいと考えていました。

すべてのデータは CSV ファイルにあり、そのほとんどは 10 列以下で 2,000 行未満です。クリーニングには、いくつかの行を削除し、他のいくつかを追加し、それらを列の値 (この場合は日付) ごとに CSV ファイルに分割することが含まれます。出力は通常、「クリーンな」データの 12 個の CSV ファイルです。

CSV の編集と分割のための使いやすいツールはありますか? Excel はデータを破壊します。私はGoogle Refineを見ています。これは良いオプションだと思いますが、データが分割されるかどうかはわかりません。

データクリーニング用のユーザーフレンドリーなツールが必要だという問題に直面した人はいますか? データクリーニングツールをいくつか検索しましたが、何も見つかりませんでした。

0 投票する
2 に答える
4717 参照

java - Hive を使用したビッグデータのクリーンアップ

Hive を使用して、所有しているデータのクエリを実行しています。問題は、このデータを消去する必要があり、大きすぎて自分のコンピューターで処理しようとしないことです (そのため、Hadoop と Hive を使用しています)。Hive でこれを行う方法はありますか? ユーザー定義関数を調べましたが、行ごとに動作するため、データを消去する最適な方法ではない可能性があると理解しています。

ありがとう

0 投票する
1 に答える
22454 参照

django - modelform: clean メソッドをオーバーライド

モデルフォームの clean メソッドに関して 2 つの質問があります。これが私の例です:

  1. 常に標準の clean メソッドを呼び出す必要がありますか?

    /li>
  2. 常にcleaned_data変数を返す必要がありますか?

    /li>