初见spark-04(高级算子)-白红宇

初见spark-04(高级算子)

阅读量：5058 次

发布时间：2019-06-12

本文共 2362 字，大约阅读时间需要 7 分钟。

　　今天，这个是spark的高级算子的讲解的最后一个章节，今天我们来介绍几个简单的算子，

countByKey

val rdd1 = sc.parallelize(List(("a", 1), ("b", 2), ("b", 2), ("c", 2), ("c", 1)))

rdd1.countByKey

rdd1.countByValue

-------------------------------------------------------------------------------------------

filterByRange

val rdd1 = sc.parallelize(List(("e", 5), ("c", 3), ("d", 4), ("c", 2), ("a", 1)))

val rdd2 = rdd1.filterByRange("b", "d")

rdd2.collect

-------------------------------------------------------------------------------------------

flatMapValues : Array((a,1), (a,2), (b,3), (b,4))

val rdd3 = sc.parallelize(List(("a", "1 2"), ("b", "3 4")))

val rdd4 = rdd3.flatMapValues(_.split(" "))

rdd4.collect

-------------------------------------------------------------------------------------------

foldByKey

val rdd1 = sc.parallelize(List("dog", "wolf", "cat", "bear"), 2)

val rdd2 = rdd1.map(x => (x.length, x))

val rdd3 = rdd2.foldByKey("")(_+_)

val rdd = sc.textFile("hdfs://node-1.itcast.cn:9000/wc").flatMap(_.split(" ")).map((_, 1))

rdd.foldByKey(0)(_+_)

-------------------------------------------------------------------------------------------

foreachPartition

val rdd1 = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9), 3)

rdd1.foreachPartition(x => println(x.reduce(_ + _)))

-------------------------------------------------------------------------------------------

keyBy : 以传入的参数做key

val rdd1 = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)

val rdd2 = rdd1.keyBy(_.length)

rdd2.collect

-------------------------------------------------------------------------------------------

keys values

val rdd1 = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", "eagle"), 2)

val rdd2 = rdd1.map(x => (x.length, x))

rdd2.keys.collect

rdd2.values.collect

转载于:https://www.cnblogs.com/wnbahmbb/p/6234728.html

你可能感兴趣的文章

8 -- 深入使用Spring -- 3...1 Resource实现类InputStreamResource、ByteArrayResource

查看>>

硬件笔记之Thinkpad T470P更换2K屏幕

查看>>

一个关于vue+mysql+express的全栈项目（六）------ 聊天模型的设计

查看>>

【知识库】-数据库_MySQL 的七种 join

查看>>

.net 写文件上传下载webservice

查看>>

noSQL数据库相关软件介绍（大数据存储时候，必须使用）

配置链路聚合中极小错误——失之毫厘谬以千里

Java基础--面向对象编程1（类与对象）

查看>>

Android Toast

查看>>

iOS开发UI篇—Quartz2D使用（绘制基本图形）

JavaScript基础(四)关于对象及JSON