ログの Tcpdump はバイナリ ファイルです。入力データの分割チャンクに使用する必要がある Hadoop の FileInputFormat を知りたいです...助けてください!!
3 に答える
これに関するユーザー リストにスレッドがありました: http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+order:date-forward
基本的に、ファイル内の任意のオフセットから始まるレコードの開始を見つけることができないため、形式は分割可能ではありません。そのため、前処理、同期点の挿入などを行う必要があります。小さなファイルをシーケンスファイルに変換してから、小さなシーケンスファイルをマージすることはできますか?
再利用可能なものを書くことになった場合は、プロジェクトに貢献することを検討してください。
PCAPファイルを読み取るInputFormatを記述し、キーのLongWritable(ファイル内のn番目のパケット)や値としてPacketWritable(PCAPデータを含む)などを返します。InputSplitの場合、個々のPCAPファイルを驚くほどすばやく読み取ることができるため、FileSplitまたはMultiFileSplitを使用してパフォーマンスを向上させることができます。
ブロックサイズがpcapファイルのサイズよりも大きくない限り、多くのネットワークIOが発生します...
最近、PCAP 形式のファイルのライブラリをリリースしました: https://github.com/RIPE-NCC/hadoop-pcap