“data-cleaning”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

278 参照

iphone - echoprint を使用して iPhone の音楽ライブラリ全体をフィンガープリンティングする

iPhone 4+ の音楽ライブラリ全体を echoprint でフィンガープリントするのは、どれほど大変な作業になるのだろうと思っています。2 ～ 3,000 曲の分析にかかる時間はどれくらいですか? これも合理的ですか？

2012-12-08T04:46:40.667

0 投票する

1 に答える

130 参照

r - Rの部分文字列ではなく完全な文字列を「検索して削除」するためのコード?

特定の文字列の発生に基づいて、大規模なデータセットをすばやくクリーニングする方法を見つけようとしています。次のような data.frame があります。

完全な CSVはこちらで確認できます。

「Rで検索して削除する」ためのコマンドを書いています：

私のコードはすべての行を削除するようになりましたが、fixed = TRUE 引数を使用しているため、よくわかりません。私が望むのは、「イベント」がすべての行の部分文字列であるため、完全な文字列であるすべての行を削除することです。コードを完全な文字列に制限するにはどうすればよいですか?

r data-cleaning

2012-12-12T23:15:50.710

0 投票する

1 に答える

907 参照

data-cleaning - Googleは行と列の間の相互参照を改良します

これがGoogleRefineで実現できるかどうかはわかりません。でも基本的にはこういうデータがあります。

ここに画像の説明を入力してください

最初のテーブルは、すべてのユーザーのテーブルです。2番目の表は、すべての友達を示しています。ただし、"friends"列の2番目のテーブルでは、削除したい最初のテーブルにすべてのIDが存在するわけではありません。では、2番目のテーブルの列の各IDを検索friendsして、テーブル1に存在しないIDを削除するにはどうすればよいですか？

data-cleaning openrefine

2013-01-31T23:16:20.777

0 投票する

1 に答える

3107 参照

python - Pythonで辞書を使用してテキストファイルで辞書の単語を探す

辞書の単語を確認する方法を読み、辞書を使用してテキストファイルを確認するというアイデアを思いつきました。私はpyenchantの指示を読みましたが、使用すればget_tokenizerテキストファイル内のすべての辞書の単語を返すことができると思いました。

ここで私は立ち往生しています: 私は自分のプログラムに、辞書の単語のすべてのグループを段落の形で提供してもらいたいのです。ジャンク文字に遭遇するとすぐに、段落の区切りと見なし、そこから X 個の連続する単語が見つかるまですべてを無視します。

の順序でテキストファイルを読み取りfilename_nnn.txt、解析し、書き込みparsed_filname_nnn.txtます。私はファイル操作を行うことに慣れていません。

私がこれまでに持っているもの：

- - - サンプルテキスト - - -

2008 年 6 月 25 日水曜日、イングリッシュクリケットはジンバブエとの関係を断ち切る text<void(0);><void(0);> <void(0);>電子メール <void(0);>この記事を電子メールで送信あなたの名前: あなたの電子メールアドレス: 受信者の名前: 受信者の電子メールアドレス: <;>別の受信者を追加あなたのコメント: メールを送信< ;ボイド(0);> このフォームを閉じる < http://ad.au.doubleclick.net/jump/sbs.com.au/worldnews;sz=300x250;tile=2;ord=123456789?> ; イングランドおよびウェールズクリケット委員会 (ECB) は、ジンバブエとの関係をすべて停止し、来年のジンバブエのイングランドツアーをキャンセルすると発表しました。

スクリプトは次を返す必要があります。

英国のクリケットは水曜日にジンバブエとの関係を断ち切る

イングランドおよびウェールズクリケット委員会 (ECB) は、ジンバブエとの関係をすべて停止し、来年のジンバブエのイングランドツアーをキャンセルすると発表しました。

abarnert の応答を受け入れました。以下は私の最終的なスクリプトです。これは非常に非効率的であり、一部をクリーンアップする必要があることに注意してください。また、私はずっと前に大学以来コーディングしていないという免責事項。

python dictionary data-cleaning pyenchant

2013-02-13T18:38:58.193

0 投票する

2 に答える

2484 参照

r - Rのドル値とパーセンテージのデータクリーニング

私はドルの値を素敵な数値に変換するのに役立つRのパッケージをたくさん探してきました。（たとえば、plyrパッケージで）1つを見つけることができないようです。私が探している基本的なことは、単に$記号を削除することと、「M」と「K」をそれぞれ数百万と数千に変換することです。

複製するには、以下のコードを使用できます。

データは次のようになります。

私は自分の関数を書くことになりました：

それから私はそれを使って私が欲しいものを手に入れました：

これにより、以下の結果が得られます。

私はRを初めて使用し、作成したコードは非常に醜いと感じました。車輪の再発明をせずにこれを行うためのより良い方法は確かにありますか？私はapply、aaply、ddply関数を使用しましたが、成功しませんでした（forループも使用しないようにしようとしていました...）。その上、SuccessRate列を処理するときに、Rでas.percentage関数のようなものを見つけることができませんでした。何が欠けていますか？

どんなガイダンスでも大歓迎です！

r data-cleaning

2013-02-21T23:39:10.450

0 投票する

2 に答える

859 参照

regex - 正規表現を使用してテキストドキュメントからハイパーリンク、電子メール ID などを削除するにはどうすればよいですか?

以下を含むテキスト文書があります。

さまざまな種類のメールアドレス: gmail、yahooなどのパブリックドメインと、 abc@mycompany.orgなどのプライベートメールを意味します ...
abc.com、http: //abc.com、www.abc.orgなどのさまざまなハイパーリンク...

したがって、単一の正規表現コマンドを記述して、ドキュメントからそのようなエントリをすべて削除してさらに処理できるかどうかを知りたいです。そうであれば、リンク、ドキュメント、または有用なものを共有してください。正規表現関数を使用して、ドキュメントからあらゆる種類の電子メール ID またはハイパーリンクを削除したいと考えています。Rで正規表現コードを実装します。私はこの分野の初心者なので、詳細な説明をいただければ幸いです。

したがって、次のように入力すると:

「abc@mycompany.org aasd234bc.com を保持するhttp://abc.com www.abc.org org com .com comm in sahgo234@flkja23.in」

次に、次のように出力する必要があります。

「保持する org com comm in」

regex string r character data-cleaning

2013-04-10T12:07:15.007

0 投票する

2 に答える

654 参照

django - Django フォームで特定の HTML タグを完全に削除する

ニュース項目をデータベースに投稿する ModelForm があり、javascript テキストエリアを使用して、許可された投稿者が太字や斜体などのスタイルテキストに HTML の特定の部分を挿入できるようにします。ただし、「安全な」フィルターを使用してテンプレートを出力しているため、フォームウィジェットが渡そうとするすべての HTML が出力されます。これには、消えることのない面倒な<br>タグが含まれているため、フォームの検証なしでフィールドを空として読み取って停止することなく送信できます。<br>タグをフィルタリングするだけでなく、データから完全に削除するにはどうすればよいですか? 関連するコードは次のとおりです。

Models.py:

Views.py:

news_list.html:

django validation django-models django-forms data-cleaning

2013-04-17T05:43:45.510

0 投票する

3 に答える

556 参照

r - データテーブルを使用したサブセットに対する操作の実行

ワイド形式の調査データセットがあります。特定の質問について、調査の質問が特定の月に行われたという事実を表すために、一連の変数が生データで作成されました。

月不変の名前を持つ変数の新しいセットを作成したいと考えています。これらの変数の値は、観測された月の月別質問の値に対応します。

例/架空のデータセットを参照してください:

このアンケートでは、実際には「q1」と「q2」の 2 つの質問しかありません。これらの質問はそれぞれ、数か月間繰り返し尋ねられます。ただし、データで観察された月が特定の月の調査質問と一致する場合にのみ、観察に有効な回答が含まれます。

例: "may.q1" は、"5 月" のすべての観測に対して "yes" として観測されます。「may.q1」、「jun.q1」、および「jul.q1」を表す新しい「Q1」変数が必要です。月が「may」の場合、「Q1」の値は「may.q1」の値になり、月が「jun」の場合、「Q1」の値は「jun.q1」の値になります。 .

データテーブルを使用して手動でこれを実行しようとすると、次のようなものが必要になります。

これを「by = month」で繰り返したいと思います。

データフレームに「plyr」パッケージを使用する場合、次のアプローチを使用して解決します。

私のデータは大きいので、 data.table メソッドを使用して助けていただければ幸いです。ありがとうございました。

r data.table plyr data-cleaning

2013-04-22T18:05:18.040

0 投票する

1 に答える

723 参照

regex - notepad++: 正規表現 (行ごとに複数出現) と行構造を保持し、他の文字を削除します

"[0-9]{4}-[0-9]{2}-[0-9]{2} "特許情報を含む 13 万行のテキストファイルがあり、Excel での後続の作業のために日付 (正規表現) を保持したいだけです。この目的のために、行構造をそのままにしておく必要があります (空白行も)。私の主な問題は、他のすべての情報を削除しながら、同じ行に複数の日付情報を識別して保持する方法が見つからないように見えることです。

元のファイル構造:

望ましいファイル構造:

ご協力ありがとうございました！

regex notepad++data-cleaning

2013-04-29T08:29:22.933

0 投票する

3 に答える

19038 参照

python - キーでグループ化された、欠落していない pandas データを以前の欠落していない値で埋める

私は次のような pandas DataFrames を扱っています:

各 NAN 'x' を、同じ 'id' 値を持つ行の前の非 NAN 'x' に置き換えたいと思います。

行を手動でループせずにこれを行うための巧妙な方法はありますか?

python pandas nan missing-data data-cleaning

2013-05-02T18:51:25.003

問題タブ [data-cleaning]

Reference