問題タブ [data-scrubbing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PythonのRのNAに相当するものは何ですか?
PythonのRのNAに相当するものは何ですか?
具体的には、R には NaN、NA、NULL、Inf、および -Inf があります。NA は通常、欠損データがある場合に使用されます。Pythonの同等物は何ですか?
numpy や pandas などのライブラリは欠損値をどのように処理しますか?
scikit-learn は欠損値をどのように処理しますか?
Python 2.7 と Python 3 では違いますか?
javascript - Javascript は Web サイト (メンバー サイト) からデータを取得します。
最初にそれを行う方法を理解しようとしているので、まだコードを書いていません。パスワードを使用してログインする必要がある職場のサイトがあります。車線を管理するために使用しているサイト (私は現在、交通機関で働いています) は、情報が複数のタップでポップアップとして表示されます。
私ができる必要があるのは、最後のタブのフィールド (負荷の合計金額を表示するフィールド) からデータを引き出すことです。ページは .aspx ページなので、これをスクラブすることは可能ですか? サービスを使わずに別の方法はありますか? 私は独自の分析プログラムを実行しようとしていますが、データの取得をどこから始めればよいか本当に混乱しています。
役立つヒントやリンクをいただければ幸いです。
perl - 解析中にPerlの「スクラブ」文字
ファイルを解析しています。最初に行うことは、最初の 3 つのフィールドを連結し、それらを各レコードの先頭に追加することです。次に、コロン、一重引用符、二重引用符、またはバックスラッシュのデータをスクラブしたいと思います。以下は私がやっている方法ですが、より効率的な $line 変数を使用してそれを行う方法はありますか?
cassandra - Cassandra 3 の修復が終わらない
データセンターに 6 つのノード (それぞれ 3 つのノード) を持つクラスターがあります。1 つのノードで修復を開始すると、すぐにログに次のような内容が記録されます。
その後、もう何も起こらないようです。数日間修理を中断しませんでしたが、それでも何も起こりません。2 つの異なるクラスターでも試してみましたが、結果は同じでした。
Web を検索した後、https://support.datastax.com/hc/en-us/articles/205256895--Validation-failed-when-running-a-nodetool-repairに出くわしました。「nodetool Scrub」を実行し、それが役に立たない場合は「sstablescrub」を実行する必要があると書かれています。
nodetool スクラブを試しましたが、修復はまだ機能しません。sstablescrub を開始しましたが、永遠にかかるようです。100% で 1 つの CPU しか使用せず、データとインデックス ファイルは拡大していますが、現在は 1 日以上実行されており、ファイルのサイズは 1.2GB しかありません。
「sstablescrub」が遅いのは普通ですか?
クラスタはすでにしばらく稼働しており、修復のための GCGraceSeconds がありませんでした。それは、修理が機能しないことにつながる可能性がありますか?
現在、修復を実行する方法がわかりません。誰かが助けてくれることを願っています.
sql - Azure ML の SQL 更新プログラムが機能しない?
Azure ML で一部のデータを消去しようとしています。次のコードを含む Apply SQL Transform ブロックがあります。
数値列です。出力を視覚化すると、0 行と 0 列があります。ブロックに入ると、225k 行あります。誰が何が起こっているのか手がかりを持っていますか?
r - マッチングと置換により段落変数の名前を匿名化する
学校の生徒の成績表データベースを分析しています。私のデータセットは、以下の例と同様に構造化された約 3000 のレコードで構成されています。各観察は、1 人の生徒に対する 1 人の教師の評価です。各観察には、3 文の物語のコメントが含まれています。
私の分析結果を共有するために、コメントから学生の名前の言及を取り除き、他の名前に置き換えたいと思います。理想的な世界では、再現性のために匿名化されたバージョンのデータベースも共有したいと考えています.
学生の名前の一貫性のない使用法 (名 vs ニックネーム vs フルネーム) と学生の名前の構造化されていない使用法は、私のようなアマチュアにとってこれを非常に扱いにくいものにしています。この問題を解決するための私の試みは、コーパス内のドキュメントとしてコメントにアプローチし、使用する関数を作成するtm::removeWords
ことでしたが、うまくいきませんでした。前もって感謝します!
サンプルデータ(ここに表のdput)
希望するデータ
注意
4か月前、私はこの質問のバージョンを尋ねましたが、返事はありませんでした. 私のソリューションを示すのに役立つと思いましたが、おそらくtm
パッケージは広く使用されていません. ということで、もう一枚。
excel - EXCEL でのデータ スクラビング
これは、ここにいるすべてのコンピューター ウィズにとって簡単なことかもしれません。EXCEL テキスト ボックス内の文字列を抽出したいと考えています。データセットはちょっと乱雑です。必要のないスペース、文字、その他のテキストがあります。例えば:
「ABC ABCABC12345D1」からABC12345D1を取り出す必要があります
しかし、それは私が抽出しなければならない識別子の 1 つにすぎません。列の残りの部分にドラッグ アンド プルダウンできる数式があればいいのにと思います。
したがって、ABCABC12345D1 は
_ _ _ 最初の 3 文字は ID です
_ _ _ _ _ 2番目の部分はロケーションタグです
_ _ そして、少なくとも過去はそれがオンかオフかです (それが抽出できなければ、私は生きていける.
今、私は正しい 8 文字か 10 文字を取り、すべてのスペースを取り除こうとしましたが、このデータを引き出す方法についてより明確な方法はありますか?