05 RDD编程

时间:2021-06-07 00:23:29   收藏:0   阅读:24

一、词频统计:

读文本文件生成RDD lines

技术分享图片

 

 

将一行一行的文本分割成单词 words flatmap()

技术分享图片

 

 

 

 

全部转换为小写 lower()

技术分享图片

 

 

 

 

去掉长度小于3的单词 filter()

技术分享图片

 

 

 

 

去掉停用词

1.准备停用词文本:

技术分享图片

 

 

  2.去除停用词:

 

技术分享图片

 

 技术分享图片

 

 

 

 

转换成键值对 map()

技术分享图片

 

 

 

 

统计词频 reduceByKey()

技术分享图片

 

 

按字母顺序排序 sortBy(f)

截图:

技术分享图片

按词频排序 sortByKey()

 技术分享图片

 

 

行动操作练习:

first()         

返回第一个元素

take(n)       

返回前n个元素

takeOrdered(n)

返回排序后的前n个元素

top(n)        

返回最大的n个元素

collect()     

返回所有元素,列表

collectAsMap()

返回所有元素的字典,MAP形式的串行化

count()

返回元素个数

countByValue()

返回每个元素重复个数,字典

countByKey()

返回的是每一键组内的记录数,字典

lookup(key)

返回某键值下的所有值,列表

 

二、学生课程分数案例

原文:https://www.cnblogs.com/zlz0852/p/14856753.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!