300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > 大数据应用技术实验报告七 Spark

大数据应用技术实验报告七 Spark

时间:2019-08-13 13:34:44

相关推荐

大数据应用技术实验报告七 Spark

Spark好在哪里?

Spark的中间数据放到内存中,对于迭代运算效率更高。

Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的数据集操作类型有很多

①Transformations转换操作:map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等。

②actions行动操作:Count, collect, reduce, lookup, save等。

例:一个Spark的“Hello World”程序

读取一个HDFS文件,计算包含字符串“Hello World”行数

val sc= new SparkContext(“spark://localhost:7077”,”Hello World”, “YOUR_SPARK_HOME”,”YOUR_APP_JAR”)

val fileRDD = sc.textFile(“hdfs://192.168.0.103:9000/examplefile”)

val filterRDD = fileRDD.filter(_.contains(“Hello World”))

filterRDD.cache()

filterRDD.count()

//创建SparkContext对象

在spark程序运行起来后,程序就会创建sparkContext,解析用户的代码,当遇到action算的时候开始执行程序,但是在执行之前还有很多前提工作要在sparkContext中做的。

val fileRDD = sc.textFile(“hdfs://192.168.0.103:9000/examplefile”)

//从HDFS文件中读取数据创建一个RDD

RDD是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算。RDD提供了一种高度受限的共享内存模型.

val filterRDD = fileRDD.filter(_.contains(“Hello World”))

//对fileRDD进行转换操作得到一个新的RDD,即filterRDD。

filterRDD.cache()

//对filterRDD进行持久化

把它保存在内存或磁盘中&#

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。