2

flumeTWITTER DATAのインポートに使用しています。conf
に次の行を追加しました。flume

TwitterAgent.sources.Twitter.keywords = hadoop, big data, analytics, bigdata, cloudera, data science, data scientiest, business intelligence, mapreduce, data warehouse, data warehousing, mahout, hbase, nosql, newsql, businessintelligence, cloudcomputing

しかし、flumeこの行は無視します!
Flume常に twitter からすべてのデータをインポートします。指定されておらず、キーワードでフィルター処理されています。

フィルタリングを機能させるにはどうすればよいですか?

4

1 に答える 1

0

このリンクに従ってください: https://github.com/cloudera/cdh-twitter-example/tree/master/flume-sources

このクラスを使用します。

com.cloudera.flume.source.TwitterSource

ところで、JAR を再コンパイルし、ビルド済みバージョンを使用しないでください :)

編集: 再コンパイルするには、リンクのセクション 1 に従います。

Flume-sources JAR をビルドするには、git リポジトリのルートから:

 cd flume-sources  
 mvn package
 cd ..  

これにより、ターゲット ディレクトリにflume-sources-1.0-SNAPSHOT.jarというファイルが生成されます。

于 2014-06-17T05:54:33.387 に答える