問題タブ [logfile-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
463 参照

r - R split() 関数のサイズ増加の問題

次のデータセットがあります

データセットを次のように分割すると:

ここでの問題は、このサンプルではなくデータセット全体でこれを試すと、RAM を超えるサイズの大幅な増加です。

なぜこれが起こっているのか、そしてこれに取り組む方法があるかどうかについての洞察をいただければ幸いです。

0 投票する
4 に答える
189 参照

windows - ファイル内の未知の文字列の最も一般的な出現回数を数えます

このような行でいっぱいの大きなファイルがあります...

他のデータは気にせず、「応答が送信されました」の後にあるものだけを気にします。ドメイン名の最も一般的な出現のソートされたリストが必要です。問題は、すべてのドメイン名を前もって知ることができないため、文字列を検索するだけでは済まないことです。

上記の例を使用して、出力を次のようにしたいと思います

...ここで、( ) 内の数字はその発生回数です。

Windowsでこれを行うには、どのように/何を使用できますか? 入力ファイルは .txt です。出力ファイルは何でもかまいません。理想的にはコマンド ライン プロセスですが、私は本当に迷っているので、何でも構いません。

0 投票する
5 に答える
109 参照

python - ファイル内の時間数を検索する最良の方法

タイムスタンプとデータ (「,」で区切られた) を含むログ ファイルがあります。ログ ファイルを解析して、1 時間ごとに発生するデータの数をカウントする Python スクリプトが必要です。

ログ ファイルの内容の例を次に示します。

この場合、午前 9 時に合計 17、午前 10 時に合計 3 というように...どうすればそれを行うことができますか?

0 投票する
0 に答える
83 参照

java - 複数行の一致基準を使用してログファイル パーサーを改善する

次のスニペットで表される、やや特殊なログファイルがあるとします。

自動化された PDF フォーム フィールド変換サービスの実行精度を分析するには、次の 4 つのタプルのすべての出現を除外してカウントする必要があります。

最後の 4 タプルの間には、スキップするか、無効なログ エントリのリストに追加することができる任意の数の行が存在する可能性があります。単純な選択基準は、以下のコードにハードコーディングされています。

次に、ログファイルは、行番号を含めて、有効なエントリと無効なエントリに分割する必要があります。上記の例に対して現在のプログラムの出力を実行すると、次のように出力されます。

これが私のアプローチです:

基本的なトリックは、このタスクに循環 fifo を導入することでした。短く、高速で、完全にうまく機能していますが、NIO2 や適切なストリーミング技術を使用するなど、Java-8 の機能にこれをより適切に変換できるかどうか疑問に思っていました。このような単純なタスクに Guava やその他の過度に設計されたライブラリを使用したくありません。

さて、私は特に、上記のように LRU エントリを取得する解決策が好きではありません。次のようなもので内部クラスを拡張して使用するにはどうすればよいでしょうか。

次に、NIO2 の機能を実際に利用したいと考えていますが、それらをソリューションに最適に統合する方法がわかりません。次のようなもの:

0 投票する
4 に答える
3579 参照

c# - ログ ファイルを読み取り、特定のテキストを含む行を抽出する

常に追加されるログがあり (1 秒あたり 1 ~ 5 行以上)、ファイルが 20MB 以上大きくなる可能性があります。

ログ ファイルの例:

次のように、ログファイルのパスと名前をプログラムの設定に保存しています。

ボタンをクリックしたときにファイルを開き、ボタンをもう一度クリックしてプロセスを停止するまでファイルを読み取る必要があります。ファイルが読み取られている間、ユーザーに表示するためにテキストボックスに出力される行が必要です。 . これが発生している間も、ログ ファイルは親プログラムによって書き込まれます。

これは、これまでに持っているボタンのコードです。

ボタンがもう一度押されるまでファイルを読み続ける必要があり、ファイルからこのような行だけが必要です

0 投票する
1 に答える
1698 参照

c# - 最後に読み取った位置からログ ファイルを読み取る

これは私の作業コードです。ファイルが更新されると(頻繁に更新されると)ログファイルを監視するファイルウォッチャーがあり、ログを読み取り、正規表現に準拠する行をテキストボックスに出力します。問題は、ファイルを最初から読み取り、正規表現された行を再度印刷するため、テキストボックスに繰り返しデータが表示されることです。また、別のスレッドから読み取ったファイルを実行するように正しくセットアップしたかどうかもわかりません。そのため、大きなログ ファイルの読み取り中にプログラムが「フリーズ」することはありません。

0 投票する
1 に答える
235 参照

r - Rで時間の差(ファイルの処理にかかった時間)を見つける方法は?

ログデータがあり、開始日時と終了日時のスタンプが記録されています。

ログ ファイルのデータは次のように なります Excel で事前に作成されたデータ

Rstudioを使用してRにデータをロードすると。データのクラスは次のようになります。

読み込まれたデータとそのデータ型

以下のコード行を使用して、日付を POSIXlt に変換しています。

nov$Start.Date1<-as.POSIXlt(as.character(nov$Start.Date1), format="%d-%m-%Y")

str(nov$Start.Time1)

nov$Start.Date1<-as.POSIXlt(as.character(nov$Start.Date1), format="%d-%m-%Y")

nov$Start.Time1<-as.POSIXlt(as.character(nov$Start.Time1), format="%H:%M:%S") nov$Start.Time1<-format(nov$Start.Time1, format="%H:%M:%S")

nov$Start.Date2<-as.POSIXlt(as.character(nov$Start.Date2), format="%d-%m-%Y")

nov$Start.Time2<-as.POSIXlt(as.character(nov$Start.Time2), format="%H:%M:%S") nov$Start.Time2<-format(nov$Start.Time2, format="%H:%M:%S")

**

> 完了するまでにかかった時間を計算したい > StartTime2-StartTime1

**

StartTime1 と StartTime2 は chr データ型になりました。

0 投票する
2 に答える
54 参照

powershell - ログファイルからの検索とグループ化

多くのエントリを含むログファイルがあります。日付で始まるものもあれば、そうでないものもあります。今/先月のすべてのエントリを "UpgradeResource] part: 3-V12345678-12-"行で検索し、ボックスでグループ化された結果を数えたいと思います。実際には 1 から 9 まで数えて 9 個のボックスがありますが、別のボックスを購入すると 10 または 11 になります。ボックス カウンターの最後には常に -1 が続きます。

検索する行は次のようになります。

私の結果出力は次のようになります。

私はpowershellの使用にあまり自信がなく、これを試しましたが、エラーが発生し、正しい方法ではないと思います:

私が得るエラー: