mapreduceを使用してApacheアクセスログとtomcatログの両方を次々に解析する必要があります。いくつかのフィールドがtomcatログから抽出され、残りはApacheログから抽出されます。タイムスタンプに基づいて/ map抽出されたフィールドをマージし、これらのマップされたフィールドを従来のリレーショナルデータベース(例:MySQL)にエクスポートする必要があります。
正規表現または豚を使用して情報を解析および抽出できます。私が直面している課題は、両方のログから抽出された情報を単一の集計形式またはファイルにマッピングする方法と、このデータをMYSQLにエクスポートする方法です。
私が考えているアプローチはほとんどありません
1)解析されたApacheアクセスログとtomcatログの両方からのmap reduceの出力を別々のファイルに書き込み、それらを1つのファイルにマージします(これもタイムスタンプに基づいています)。このデータをMySQLにエクスポートします。
2)HbaseまたはHiveを使用して、データをテーブル形式でhadoopに保存し、MySQLにエクスポートします
3)JDBCを使用して、mapreduceの出力をMySQLに直接書き込みます。
どのアプローチが最も実行可能であり、また、あなたが知っている他の代替ソリューションを提案してください。