問題タブ [data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
image-processing - データのパターンを認識するための最善のアプローチと、そのトピックについてさらに学ぶための最良の方法は何ですか?
私が一緒に働いている開発者は、舗装の画像を分析して舗装の亀裂を見つけるプログラムを開発しています。彼のプログラムが見つけた亀裂ごとに、その特定の亀裂を構成するピクセルを示すエントリがファイルに生成されます。ただし、彼のソフトウェアには 2 つの問題があります。
1) いくつかの偽陽性を生成します
2) ひびを見つけた場合、その小さな部分だけを見つけて、それらの部分を別々のひびとして示します。
私の仕事は、このデータを読み取って分析し、偽陽性と実際の亀裂を区別するソフトウェアを作成することです。また、クラックのすべての小さなセクションを 1 つにグループ化する方法も決定する必要があります。
偽陽性を排除するためにデータをフィルタリングするさまざまな方法を試し、クラックをグループ化するためにニューラル ネットワークを使用して、ある程度の成功を収めました。エラーが発生することは理解していますが、現時点ではエラーが多すぎます。私のタスクを達成するための最善の方法、またはそれについてもっと学ぶための、AI 以外の専門家のための洞察を誰かが持っていますか? どのような本を読むべきか、どのような授業を受けるべきか?
編集私の質問は、同僚のデータのパターンに気づき、それらのパターンを実際の亀裂として識別する方法についてです。私が関心を持っているのは高レベルのロジックであり、低レベルのロジックではありません。
編集実際には、私が扱っているデータを正確に表現するには、少なくとも20枚のサンプル画像が必要です。それは大きく異なります。しかし、ここ、ここ、そしてここにサンプルがあります。これらの画像は、同僚のプロセスによって既に処理されています。赤、青、および緑のデータは、分類する必要があるものです (赤は暗い亀裂、青は軽い亀裂、緑は広い/封印された亀裂を表します)。
hyperlink - リンクのクリックから情報を取得するには?
リンクのクリックからどのように情報を取得できるのか疑問に思っています。
たとえば、ユーザーがログインしてリンクをクリックしたとします。その情報を記録することは可能ですか?クリックされたリンクの数、どのリンクか、などなど。
これを行う方法がわかりません。アイデア/情報へのリンクはありますか?
math - 点群から線を見つける
ポイントの配列があります。これらの点が私のページの多くの行を表していることを知っています。
どうすればそれらを見つけることができますか? 点群の間隔を見つける必要がありますか?
ありがとうジョナサン
python - 等高線図でプロットされた線の (x,y) 値を取得するにはどうすればよいですか?
次のようにプロットされた等高線の (x,y) 値を取得する簡単な方法はありますか:
r - R でインタラクティブにライブラリの内容を取得する
Rにdir関数(python)に相当するものはありますか?
Rのようにライブラリをロードすると-
ライブラリ(vrtest)
そのライブラリにあるすべての関数を知りたいです。
Python では、dir(vrtest) は vrtest のすべての属性のリストになります。
一般的に、Linux の ESS で R を実行しているときに、R のヘルプを得る最良の方法を探していると思います。インストールしたパッケージの man ページはすべて表示されますが、それらにアクセスする方法がわかりません。
ありがとう
logging - アクセスログ解析の表示
Catalyst Web アプリケーションからのアクセス ログを分析する作業を行っています。データは、Web ファームの前にあるロード バランサーからのもので、1 日あたり合計約 35Gb です。これはHadoop HDFS ファイルシステムに保存されており、 MapReduce を ( Dumbo経由で、これはすばらしい) 使用して数値を処理します。
分析の目的は、キャパシティ プランニング、最適化、およびシステムを監視するためのしきい値。Analog のような従来のツールは、最も要求の多い URL や最も使用されているブラウザーを教えてくれますが、どれも役に立ちません。/controller/foo?id=1984
それが最も人気のある URL であることを知る必要はありません。へのすべてのヒットのヒット率と応答時間を知る必要が/controller/foo
あるため、最適化またはキャッシュの余地があるかどうかを確認し、このアクションのヒットが突然 2 倍になった場合に何が起こるかを見積もることができます。
MapReduce を使用して、データを期間ごとのアクションごとのリクエストに簡単に分割できます。問題は、それをわかりやすい形式で表示し、重要な傾向や異常を見つけ出すことです。私の出力は次の形式です。
つまり、キーは期間であり、値は(action, hits, cache hits)
期間ごとのタプルです。(これに固執する必要はありません。これは、これまでのところ私が持っているものです。)
約250のアクションがあります。それらを組み合わせて少数のグループにすることはできますが、各アクションのリクエスト数 (または応答時間など) を同じグラフにプロットすることはおそらくうまくいきません。第一に、ノイズが多すぎます。第二に、絶対数はあまり重要ではありません。頻繁に使用される軽量でキャッシュ可能な応答に対するリクエストが 100 リクエスト/分増加することは、100 リクエスト/分増加することよりもはるかに重要ではありません。めったに使用されないが高価な(おそらくDBにヒットする)キャッシュ不可能な応答で。同じグラフでは、ほとんど使用されていないアクションに対する要求の変化は見られません。
静的なレポートはあまり良くありません。膨大な数の表は、消化するのが困難です。時間単位で集計すると、重要な分単位の変化を見逃す可能性があります。
助言がありますか?この問題をどのように処理していますか? 1 つの方法は、リクエストの割合またはアクションごとの応答時間の大幅な変化を強調することだと思います。ローリング平均と標準偏差がこれを示しているかもしれませんが、もっと良いことはできますか?
他にどのような指標や数値を生成できますか?
python - Matplotlib: 3D 棒グラフの x 軸の日付の書式設定
この3D 棒グラフのサンプル コードを考えると、x 軸の数値データを書式設定された日付/時刻文字列にどのように変換しますか? ax.xaxis_date() 関数を使用しようとしましたが、成功しませんでした。また、3D 棒グラフでは機能しないように見える plot_date() も使用してみました。私がやろうとしていることを説明するために、サンプルコードの修正版を次に示します。
amazon-s3 - Amazon ec2/S3で数値計算アプリケーションを開発するためのワークフロー
EC2 / S3にデータクランチアプリケーションをデプロイすることについて多くのことが書かれていますが、そのようなアプリケーションを開発するための典型的なワークフローは何ですか?
最初に1TBの時系列データがあり、これをS3に保存できたとします。アプリケーションを作成し、インタラクティブなデータ分析を行って機械学習モデルを構築し、それらをテストするための大規模なプログラムを作成するにはどうすればよいですか?言い換えれば、そのような状況で開発環境をセットアップするにはどうすればよいのでしょうか。EC2インスタンスを起動し、そのインスタンスでソフトウェアを開発して変更を保存し、作業を行うたびにシャットダウンしますか?
通常、私はRまたはPylabを起動し、ローカルドライブからデータを読み取り、分析を行います。次に、その分析に基づいてアプリケーションを作成し、そのデータを解放します。
EC2では、それができるかどうかわかりません。人々は分析のためにデータをローカルに保持し、実行する大規模なシミュレーションジョブがある場合にのみEC2を使用しますか?
私は他の人々が何をしているのか、特にEC2/S3に基づいたインフラストラクチャ全体を持っている新興企業を知りたいと思っています。
c# - 大量のデータを効率的に分析するには?
何万行ものデータを分析する必要があります。データはテキスト ファイルからインポートされます。データの各行には 8 つの変数があります。現在、クラスを使用してデータ構造を定義しています。テキスト ファイルを読みながら、各行オブジェクトを一般的なリスト List に格納します。
テキストの各行のデータを分析し、現在一般的なリスト (リスト) にも保存している定義用語に関連付ける必要があるため、リレーショナル データベース (SQL) の使用に切り替える必要があるかどうか疑問に思っています。
目標は、定義を使用して大量のデータを変換することです。定義されたデータをフィルタリング可能、検索可能などにしたいのです。データベースを使用することは、考えれば考えるほど理にかなっていますが、変更を加える前に経験豊富な開発者に確認したいと思います (私は構造体と構造体を使用していました)。最初は配列リスト)。
私が考えることができる唯一の欠点は、ユーザーが翻訳して表示した後、データを保持する必要がないことです。データを永続的に保存する必要はないため、データベースを使用するのは少しやり過ぎかもしれません。
data-analysis - URL のインデックスを作成します。どの機能を含める必要がありますか?
URLのインデックスの作成に取り組んでいます。目的は、ドメイン URL (例: www.nytimes.com) としてキーを持つデータ構造を構築して保存することであり、値はその URL に関連付けられた一連の機能になります。この一連の機能についての提案をお待ちしています。たとえば、www.nytimes.com を次のように保存します。
[www.nytimes.com: [lang:en, alexa_rank:96, content_type:news, spam_probability: 0.0001 など..]
なぜ私はこれを構築しているのですか?最終的な目標は、このインデックスを使用して興味深いことを行うことです。たとえば、このインデックスでクラスタリングを行い、興味深いグループを見つけるなどです。全体の期間にわたって多数の URL によって生成された大量のテキストを持っています。多くの時間:)データは問題ではありません。
どんな種類の提案も大歓迎です。