問題タブ [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
2300 参照

javascript - 文字列形式が「2013 年 5 月 16 日」であるか、Javascript を使用した UNIX タイムスタンプであるかを判断します

大規模なデータセットでデータ ラングリングを行う。データには、「1370039735000」と「2013 年 5 月 16 日」のような形式の間でランダムに切り替わる「日付」フィールドがあります。これまでのところ、他の日付フィールドを次のいずれかで変換しました

また

正規表現またはその他の手段を使用して、2つの違いをどのように見分けることができますか? MongoDB を使用していますが、すべて Javascript です。

0 投票する
3 に答える
66300 参照

python - タイプがフロートまたは特定のタイプであるパンダのデータフレームのすべての列を見つけますか?

float64 型のいくつかの列を持つデータフレーム df がありますが、他の列はオブジェクトです。混合性のため、使用できません

タイプが float64 の列でエラーが発生したため (誤解を招くエラー メッセージです!)

だから私は次のようなことができればいいのにと思います

私の質問は、df.columns で使用できるフィルター式があるかどうかです。

あるいは、エレガントではありませんが、次のことができると思います。

また、上記のコードで '' を 'unknown' に置き換えると、コードが特定のセルで機能するのに、「ValueError: 位置 0 で datetime 文字列 "unknown" を解析中にエラーが発生しました」というエラーでセルで失敗した理由も知りたいです。

どうもありがとう!

ゆう

0 投票する
1 に答える
219 参照

python - Perl から Python へ - CSV クリーニング

私は今、Perl から Python に切り替えることを余儀なくされており、コースも受講しました。しかし、私はすでに CSV ファイルの単純なデータ クリーニング タスクに苦労しています。特定の列の ¶ を SPACE に置き換えたいのですが、他の列はそのままにしておく必要があります。

Perl では、これは非常に簡単で、魔法のように機能します。

Pythonでそれを行うにはどうすればよいですか? ワンライナーである必要はありません...

0 投票する
1 に答える
135 参照

python - ファイル内の各行から複数​​の単語と対応する値を識別する方法 ex: "status":"ok"

基本的に、SQL DB に挿入できる行から特定の項目を含むリストを作成できるスクリプトを作成しようとしています。テキストファイル「addresses.txt」に次のような行が複数あります。

たとえば、削除したい

最終的に、次のように file_output.txt に書き込むことができる列リストと値リストになります。

これは私がこれまでに持っているものです

私のコメントアウトした試みのいくつかが含まれていれば、おそらく役立つでしょう。また、 を使用するたびに、すべての utf-8 文字がねじ込まれていることに気付きました#address_list = temp_replace.split(",")。これを修正する理由や方法がわかりません。

更新 この例を見ると、JSONをCSVに変換するにはどうすればよいですか? 問題を解決するために、次のコードを思いつきました。

ただし、これで問題は解決しません。次のエラーが表示されます

誰でも助けることができますか?前もって感謝します。

0 投票する
1 に答える
132 参照

data-cleaning - openrefine フラグが行を変更しました

openrefine を使用して Excel データセットをクリーンアップしています。私は約 70 の操作を行っており、さまざまなデータ セットでカット アンド ペーストを行ってきました。レコード ID を維持し、新しい Excel シートにエクスポートします。次に、レコード ID を使用してシートをリロードします。

それはうまく機能しますが、ほんの一握りのレコードが変更されただけでも、データベース全体をリロードする必要があります。変更されたレコードにフラグを付けて、変更されたレコードのみをアプリケーションにエクスポート/インポートする簡単な方法はありますか?

70 の操作にフラグを簡単に追加して、変更されたレコードのみにタグを付けることができますか?

0 投票する
5 に答える
1222 参照

regex - タイムスタンプで始まらない行のパイプ区切りファイルから改行文字を削除する

データの例を次に示します。

タイムスタンプで始まらない行から改行文字を削除するスクリプトが必要です。上記の例では、行 2 ~ 5 が一種のテキスト blob の最初の行の最後のフィールドに追加されます。私は良い線を検出する方法を知っています、

そしてまた悪い線、

問題は、「良い」行に続く行をこの行の最後のフィールドに戻すために、これをどのように適用するか (sed を使用して?) です。ここで何か助けていただければ幸いです。

目的の出力の例を次に示します。

編集:

どのツールが最も適切かについては、いくつかの意見の相違があります。現時点では、メモ帳++に傾いています。これは私がやりたいことの種類に近いですが、うまく機能していません。誰かが私のユースケースに合わせて調整するのを手伝ってくれるかもしれません:

問題は、.* が、否定しようとしているタイムスタンプをキャッチすることです。何かご意見は?

編集 2: 役に立つアドバイスをくれてありがとう、それは間違いなく私を正しい方向に動かしています! 次の正規表現は、メモ帳++で問題のある \n 文字を検出しますが、置換を実行しようとしても何も起こりません:

notepad ++に問題のある\nを強制的に削除する方法について、ここに誰かアイデアがありますか?

編集 3: 提案されたソリューションでは機能しないと思われる追加のサンプル データを次に示します。

0 投票する
0 に答える
341 参照

python - UTF-8 のテキストのクリーンアップ

私は、主にビジネス関連のタスク、活動、および操作を参照するさまざまな種類のエンティティに対して、ユーザーが人間が読める名前を1 行のテキストに入力できるインターフェイスを用意しています。これには数字も含まれます。

このインターフェイスが複数の人間の言語をサポートすることを望んでいますが、同時に、後で物事を壊す可能性のあるエントリ、特に書式設定、改行文字、タブ、および印刷されない文字または制御コードの組み合わせを避けたいと考えています。

ローカリゼーションのトピックは初めてですが、よく知られているutf-8文字のサブセット、または多言語 (utf-8) テキストを検証するための一連のプラクティスはありますか? 実用的な観点から、私は主に Python でのソリューションに関心がありますが、他の言語での一般的なソリューションにももちろんオープンです。これを行う人は何に注意する必要がありますか?