Apache Flume を使用して、大量のツイートを Hadoop の HDFS にパイプしました。私はこのデータに対して感情分析を行おうとしていました - 肯定的な言葉と否定的な言葉の比較のように、最初は単純なものです。
私の問題は、それを行う方法を示すすべてのガイドに、肯定的な言葉と否定的な言葉のテキスト ファイルと、ツイートごとに巨大なテキスト ファイルがあることです。
Flume を使用していたので、すべてのデータは既に Hadoop にあります。localhost:50070 を使用してアクセスすると、月/日/時間に応じて個別のファイルにデータが表示され、各ファイルには 3 つまたは 4 つのツイートが含まれています。これらのファイルは、1 時間ごとにおそらく 50 個あります。どこにも書いてありませんが、JSON形式だと思います。
これを念頭に置いて、どのように分析を行うことができますか? Mapper と Reducer が記述された場所で私が見たすべての例では、これが実行された単一のファイルがあり、小さな JSON ファイルの大規模なコレクションではありませんでした。私の次のステップは何ですか?