“data-mining”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

3050 参照

java - データマイニングと視覚化のためのツールサポートに関して、ログイベントの最適な XML 形式は?

Java アプリケーションからログファイルを作成できるようにしたいと考えています。これは、バグの調査やパフォーマンス統計の収集に役立つツールによる後で処理するのに適しています。

現在、従来の「テキスト形式にフラット化されてログファイルに追加される場合とされない場合があるログ」を使用していますが、これは人間が読み取る少量の情報に最適です。

慎重に検討した結果、最善の策は、ログイベントを XML スニペットとしてテキストファイルに保存し (その後、他のログファイルと同様に処理されます)、後処理用の適切なツールを使用してマシンにダウンロードすることでした。

できるだけ広くサポートされている XML 形式を使用したいと考えており、現在は「調査してから決定する」フェーズにいます。XML 形式とツールの両方の点で助けていただければ幸いです。また、必要なものを取得するためのグルーコードを喜んで作成します。

私がこれまでに見つけたもの：

log4j XML 形式: チェーンソーと Vigilog でサポートされています。Lilith XML 形式: Lilith がサポート

未調査のツール:

Microsoft Log Parser: XML をサポートしているようです。OS X ログビューア:

さらに、 http://www.loganalysis.org/sections/parsing/generic-log-parsers/には多くのツールがあります。

助言がありますか？

Thorbjørn Ravn Andersen

2009-01-21T13:39:14.317

0 投票する

1 に答える

139 参照

data-mining - 1 日に複数回の Web フィードの処理

わかりました、ここで取引を簡単に説明します。私は、インターネット上に表示されるように、Web (あらゆる種類のデータ、ブログ/ニュース/フォーラム) をスパイダーします。次に、このフィードを処理し、処理されたデータの分析を行います。スパイダーは大したことではありません。インターネットが新しいデータを取得するので、ほぼリアルタイムで取得できます。処理はボトルネックであり、計算負荷の高いアルゴリズムが含まれます。

スパイダーをスケジュールするための戦略を構築しようとしています。大きな目標は、最終結果として生成される分析が、できるだけ多くの最近の入力の影響を反映していることを確認することです。考えてみると、明らかな目的は、データが積み重ならないようにすることです。スパイダーを介してデータを取得し、処理コードに渡し、処理が完了するまで待ってからさらにスパイダーします。今回は、処理が終わるのを待っている間に現れたすべてのデータを持ってきます。わかりました、これは非常に広い考えです。

あなたの何人かがあなたの考えを共有できますか、大声で考えるかもしれません. あなたが私だったら、あなたの心に何が入るでしょうか。私の質問が理にかなっていることを願っています。ちなみに、これは検索エンジンのインデックス作成ではありません。

data-mining web-crawler

redfrog

2009-02-15T04:28:37.733

0 投票する

2 に答える

1621 参照

python - ラテン語の6文字すべてをリストに抽出するにはどうすればよいですか？

リストに6文字のラテン語をすべて含める必要があります。

また、Xyzzyxのパターンに従う単語をリストに入れたいと思います。

私は少しPythonを使用しました。

python regex data-mining

Masi

2009-02-22T13:51:36.220

0 投票する

3 に答える

656 参照

c# - C# Web ページのソースの解析

ページのソースであるテキストの壁の中で。このようなセクションでは、引用符なしで video_id、l および t を取得する必要があります。

"video_id": "lUoiKMxSUCw", "l": 105, "sk": "-2fL6AANk__E49CRzF6_Q8F7yBPWdb9QR", "fmt_map": "35/640000/9/0/115,34/0/9/0/115,5/ 0/7/0/0", "t": "vjVQa1PpcFMbYtdhqxUip5Vtm856lwh7lXZ6lH6nZAg=",

私は次のものが必要です

luoiKMxSUCw

105

vjVQa1PpcFMbYtdhqxUip5Vtm856lwh7lXZ6lH6nZAg=

「正規表現」を使用するように言われましたが、それらの使用方法がわかりません。どんな助けでもいいでしょう:)

c#.net asp.net regex data-mining

Fatal510

2009-02-23T10:11:32.730

0 投票する

6 に答える

229 参照

unit-testing - 正確性が不十分に定義されている場合のテスト?

私は通常、適切に定義された適度に小さい一連の入力が与えられた場合に、正しい動作を簡単に定義できるコードに対して単体テストを使用しようとします。これはバグをキャッチするのに非常にうまく機能し、私はジェネリック関数の個人的なライブラリで常にこれを行っています。

ただし、私が書くコードの多くは、基本的に大規模なデータセットで重要なパターンを探すデータマイニングコードです。この場合の正しい動作は、しばしば明確に定義されておらず、人間が予測するのが容易ではない方法で多くの異なる入力に依存しています (つまり、数学は手動で合理的に行うことができないため、私は最初に問題を解決するためにコンピューターを使用します)。これらの入力は非常に複雑になる可能性があり、妥当なテストケースを作成することはほぼ不可能です。テストする価値のあるエッジケースを特定することは非常に困難です。アルゴリズムが決定論的でない場合もあります。

通常、サニティチェックに assert を使用し、既知のパターンを使用して小さなおもちゃのテストケースを作成し、その答えが客観的に正しいとは限りませんが、少なくとも「妥当に見える」かどうかを非公式に確認することで、できる限りのことを行います。この種のケースをテストするより良い方法はありますか?

unit-testing language-agnostic automated-tests data-mining

dsimcha

2009-03-18T17:57:20.757

0 投票する

5 に答える

16538 参照

artificial-intelligence - どんな種類の人工知能の仕事がありますか?

コンピューターサイエンスの学生時代を通じて、私は人工知能のさまざまな側面に夢中になりました。エキスパートシステム、ニューラルネットワークからデータマイニング (分類) まで。このアカデミックな情熱をプロに変えるとしたら、AI 関連の仕事にはどのようなものがあるのでしょうか。

artificial-intelligence neural-network data-mining

wsb3383

2009-04-03T18:53:08.557

0 投票する

3 に答える

48966 参照

r - R ランダムフォレスト変数の重要性

Rでの分類にランダムフォレストパッケージを使用しようとしています.

リストされている可変重要度メジャーは次のとおりです。

クラス 0 の変数 x の生の重要度スコアの平均
クラス 1 の変数 x の生の重要度スコアの平均
MeanDecreaseAccuracy
MeanDecreaseGini

今、私はそれらの定義を知っているように、これらの「意味」を知っています。私が知りたいのは、それらの使い方です。

私が本当に知りたいのは、これらの値がどれほど正確であるか、良い値とは何か、悪い値とは何か、最大値と最小値などのコンテキストでのみ、これらの値が何を意味するかです.

変数の値が高い場合、それは重要か重要でないかMeanDecreaseAccuracy? MeanDecreaseGiniまた、生のスコアに関する情報も役立ちます。それらの適用に関連するこれらの数値について知っておくべきことをすべて知りたい.

「エラー」、「合計」、または「順列」という言葉を使用する説明は、ランダムフォレストがどのように機能するかについての議論を含まない単純な説明よりも役に立ちません。

ラジオの使い方を誰かに説明してほしいと思ったとしても、ラジオが電波を音に変換する仕組みが説明されているとは思いません。

r statistics data-mining random-forest

2009-04-10T02:18:38.490

0 投票する

4 に答える

1883 参照

web-crawler - Web サイトのクロールとデータマイニングに最適なオープンソースライブラリまたはアプリケーション

Web サイトのクロールと分析に最適な eopen-source ライブラリは何か知りたいです。1 つの例として、多数のサイトから情報を取得し、それらを自分のサイトに集約したいクローラープロパティエージェンシーがあります。そのためには、サイトをクロールしてプロパティ広告を抽出する必要があります。

web-crawler data-mining extraction text-extraction

2009-04-17T07:26:03.633

問題タブ [data-mining]

Reference