前面步骤与样例3一样的已省略
注:spark-shell 下同样支持用Tab键进行提示操作
如果在IDEA中创建Maven项目需要导入相關依赖,现在先不提供pom文件后面再上传。
依赖导入完成之后创建scala rdd形式是什么-object,启用RDD需要固定的前面几行代码(里面的设置不一定固定)
下面的例子都用这个文件内的方法进行说明
RDD过滤出包含一串字符的行
RDD对包含某些字段的行进行计数
假设我有一个spark RDD里面记录的是(时段分数,次数)
我现在想求:每个时段的平均分数即:同一个时段下,总分数 / 总次数
不知有什么好方法没有因为我发现无论是action操作吔好,转换成其他Rdd也好
总没有满意方法,只能分成两个rdd然后关联处理
0
先转化为pairrdd,以时段为键分数次数为值,然后以键aggregate聚合统计每个键下的值就行了
;问题解决后请采纳答案;如果自己找到解决方案,也可以