問題タブ [data-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
3050 参照

java - データ マイニングと視覚化のためのツール サポートに関して、ログ イベントの最適な XML 形式は?

Java アプリケーションからログ ファイルを作成できるようにしたいと考えています。これは、バグの調査やパフォーマンス統計の収集に役立つツールによる後で処理するのに適しています。

現在、従来の「テキスト形式にフラット化されてログ ファイルに追加される場合とされない場合があるログ」を使用していますが、これは人間が読み取る少量の情報に最適です。

慎重に検討した結果、最善の策は、ログ イベントを XML スニペットとしてテキスト ファイルに保存し (その後、他のログ ファイルと同様に処理されます)、後処理用の適切なツールを使用してマシンにダウンロードすることでした。

できるだけ広くサポートされている XML 形式を使用したいと考えており、現在は「調査してから決定する」フェーズにいます。XML 形式とツールの両方の点で助けていただければ幸いです。また、必要なものを取得するためのグルー コードを喜んで作成します。

私がこれまでに見つけたもの:

log4j XML 形式: チェーンソーと Vigilog でサポートされています。Lilith XML 形式: Lilith がサポート

未調査のツール:

Microsoft Log Parser: XML をサポートしているようです。OS X ログ ビューア:

さらに、 http://www.loganalysis.org/sections/parsing/generic-log-parsers/には多くのツールがあります。

助言がありますか?

0 投票する
1 に答える
139 参照

data-mining - 1 日に複数回の Web フィードの処理

わかりました、ここで取引を簡単に説明します。私は、インターネット上に表示されるように、Web (あらゆる種類のデータ、ブログ/ニュース/フォーラム) をスパイダーします。次に、このフィードを処理し、処理されたデータの分析を行います。スパイダーは大したことではありません。インターネットが新しいデータを取得するので、ほぼリアルタイムで取得できます。処理はボトルネックであり、計算負荷の高いアルゴリズムが含まれます。

スパイダーをスケジュールするための戦略を構築しようとしています。大きな目標は、最終結果として生成される分析が、できるだけ多くの最近の入力の影響を反映していることを確認することです。考えてみると、明らかな目的は、データが積み重ならないようにすることです。スパイダーを介してデータを取得し、処理コードに渡し、処理が完了するまで待ってからさらにスパイダーします。今回は、処理が終わるのを待っている間に現れたすべてのデータを持ってきます。わかりました、これは非常に広い考えです。

あなたの何人かがあなたの考えを共有できますか、大声で考えるかもしれません. あなたが私だったら、あなたの心に何が入るでしょうか。私の質問が理にかなっていることを願っています。ちなみに、これは検索エンジンのインデックス作成ではありません。

0 投票する
2 に答える
1621 参照

python - ラテン語の6文字すべてをリストに抽出するにはどうすればよいですか?

リストに6文字のラテン語をすべて含める必要があります。

また、Xyzzyxのパターンに従う単語をリストに入れたいと思います。

私は少しPythonを使用しました。

0 投票する
3 に答える
656 参照

c# - C# Web ページのソースの解析

ページのソースであるテキストの壁の中で。このようなセクションでは、引用符なしで video_id、l および t を取得する必要があります。

"video_id": "lUoiKMxSUCw", "l": 105, "sk": "-2fL6AANk__E49CRzF6_Q8F7yBPWdb9QR", "fmt_map": "35/640000/9/0/115,34/0/9/0/115,5/ 0/7/0/0", "t": "vjVQa1PpcFMbYtdhqxUip5Vtm856lwh7lXZ6lH6nZAg=",

私は次のものが必要です

luoiKMxSUCw

105

vjVQa1PpcFMbYtdhqxUip5Vtm856lwh7lXZ6lH6nZAg=

「正規表現」を使用するように言われましたが、それらの使用方法がわかりません。どんな助けでもいいでしょう:)

0 投票する
6 に答える
229 参照

unit-testing - 正確性が不十分に定義されている場合のテスト?

私は通常、適切に定義された適度に小さい一連の入力が与えられた場合に、正しい動作を簡単に定義できるコードに対して単体テストを使用しようとします。これはバグをキャッチするのに非常にうまく機能し、私はジェネリック関数の個人的なライブラリで常にこれを行っています。

ただし、私が書くコードの多くは、基本的に大規模なデータセットで重要なパターンを探すデータ マイニング コードです。この場合の正しい動作は、しばしば明確に定義されておらず、人間が予測するのが容易ではない方法で多くの異なる入力に依存しています (つまり、数学は手動で合理的に行うことができないため、私は最初に問題を解決するためにコンピューターを使用します)。これらの入力は非常に複雑になる可能性があり、妥当なテスト ケースを作成することはほぼ不可能です。テストする価値のあるエッジ ケースを特定することは非常に困難です。アルゴリズムが決定論的でない場合もあります。

通常、サニティ チェックに assert を使用し、既知のパターンを使用して小さなおもちゃのテスト ケースを作成し、その答えが客観的に正しいとは限りませんが、少なくとも「妥当に見える」かどうかを非公式に確認することで、できる限りのことを行います。この種のケースをテストするより良い方法はありますか?

0 投票する
5 に答える
16538 参照

artificial-intelligence - どんな種類の人工知能の仕事がありますか?

コンピューター サイエンスの学生時代を通じて、私は人工知能のさまざまな側面に夢中になりました。エキスパート システム、ニューラル ネットワークからデータ マイニング (分類) まで。このアカデミックな情熱をプロに変えるとしたら、AI 関連の仕事にはどのようなものがあるのでしょうか。

0 投票する
3 に答える
48966 参照

r - R ランダム フォレスト変数の重要性

Rでの分類にランダムフォレストパッケージを使用しようとしています.

リストされている可変重要度メジャーは次のとおりです。

  • クラス 0 の変数 x の生の重要度スコアの平均
  • クラス 1 の変数 x の生の重要度スコアの平均
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

今、私はそれらの定義を知っているように、これらの「意味」を知っています。私が知りたいのは、それらの使い方です。

私が本当に知りたいのは、これらの値がどれほど正確であるか、良い値とは何か、悪い値とは何か、最大値と最小値などのコンテキストでのみ、これらの値が何を意味するかです.

変数の値が高い場合、それは重要か重要でないかMeanDecreaseAccuracy? MeanDecreaseGiniまた、生のスコアに関する情報も役立ちます。それらの適用に関連するこれらの数値について知っておくべきことをすべて知りたい.

「エラー」、「合計」、または「順列」という言葉を使用する説明は、ランダム フォレストがどのように機能するかについての議論を含まない単純な説明よりも役に立ちません。

ラジオの使い方を誰かに説明してほしいと思ったとしても、ラジオが電波を音に変換する仕組みが説明されているとは思いません。

0 投票する
4 に答える
1883 参照

web-crawler - Web サイトのクロールとデータ マイニングに最適なオープン ソース ライブラリまたはアプリケーション

Web サイトのクロールと分析に最適な eopen-source ライブラリは何か知りたいです。1 つの例として、多数のサイトから情報を取得し、それらを自分のサイトに集約したいクローラー プロパティ エージェンシーがあります。そのためには、サイトをクロールしてプロパティ広告を抽出する必要があります。