2

ログの Tcpdump はバイナリ ファイルです。入力データの分割チャンクに使用する必要がある Hadoop の FileInputFormat を知りたいです...助けてください!!

4

3 に答える 3

2

これに関するユーザー リストにスレッドがありました: http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+order:date-forward

基本的に、ファイル内の任意のオフセットから始まるレコードの開始を見つけることができないため、形式は分割可能ではありません。そのため、前処理、同期点の挿入などを行う必要があります。小さなファイルをシーケンスファイルに変換してから、小さなシーケンスファイルをマージすることはできますか?

再利用可能なものを書くことになった場合は、プロジェクトに貢献することを検討してください。

于 2009-08-09T19:01:47.113 に答える
1

PCAPファイルを読み取るInputFormatを記述し、キーのLongWritable(ファイル内のn番目のパケット)や値としてPacketWritable(PCAPデータを含む)などを返します。InputSplitの場合、個々のPCAPファイルを驚くほどすばやく読み取ることができるため、FileSplitまたはMultiFileSplitを使用してパフォーマンスを向上させることができます。

ブロックサイズがpcapファイルのサイズよりも大きくない限り、多くのネットワークIOが発生します...

于 2009-10-01T20:12:03.000 に答える
1

最近、PCAP 形式のファイルのライブラリをリリースしました: https://github.com/RIPE-NCC/hadoop-pcap

于 2011-12-03T14:17:40.330 に答える