深入了解SparkSQL的运用及方法
作者:那人独钓寒江雪. 发布时间:2023-06-08 13:43:27
标签:SparkSQL,运用,方法
一:SparkSQL
1.SparkSQL简介
Spark SQL是Spark的一个模块,用于处理结构化的数据,它提供了一个数据抽象DataFrame(最核心的编程抽象就是DataFrame),并且SparkSQL作为分布式SQL查询引擎。
Spark SQL就是将SQL转换成一个任务,提交到集群上运行,类似于Hive的执行方式。
2.SparkSQL运行原理
将Spark SQL转化为RDD,然后提交到集群执行。
3.SparkSQL特点
(1)容易整合,Spark SQL已经集成在Spark中
(2)提供了统一的数据访问方式:JSON、CSV、JDBC、Parquet等都是使用统一的方式进行访问
(3)兼容 Hive
(4)标准的数据连接:JDBC、ODBC
二、SparkSQL运用
package sql
import org.apache.avro.ipc.specific.Person
import org.apache.spark
import org.apache.spark.rdd.RDD
import org.apache.spark.sql
import org.apache.spark.sql.catalyst.InternalRow
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
import org.junit.Test
class Intro {
@Test
def dsIntro(): Unit ={
val spark: SparkSession = new sql.SparkSession.Builder()
.appName("ds intro")
.master("local[6]")
.getOrCreate()
//导入隐算是shi转换
import spark.implicits._
val sourceRDD: RDD[Person] =spark.sparkContext.parallelize(Seq(Person("张三",10),Person("李四",15)))
val personDS: Dataset[Person] =sourceRDD.toDS();
//personDS.printSchema()打印出错信息
val resultDS: Dataset[Person] =personDS.where('age>10)
.select('name,'age)
.as[Person]
resultDS.show()
}
@Test
def dfIntro(): Unit ={
val spark: SparkSession =new SparkSession.Builder()
.appName("ds intro")
.master("local")
.getOrCreate()
import spark.implicits._
val sourceRDD: RDD[Person] = spark.sparkContext.parallelize(Seq(Person("张三",10),Person("李四",15)))
val df: DataFrame = sourceRDD.toDF()//隐shi转换
df.createOrReplaceTempView("person")//创建表
val resultDF: DataFrame =spark.sql("select name from person where age>=10 and age<=20")
resultDF.show()
}
@Test
def database1(): Unit ={
//1.创建sparkSession
val spark: SparkSession =new SparkSession.Builder()
.appName("database1")
.master("local[6]")
.getOrCreate()
//2.导入引入shi子转换
import spark.implicits._
//3.演示
val sourceRDD: RDD[Person] =spark.sparkContext.parallelize(Seq(Person("张三",10),Person("李四",15)))
val dataset: Dataset[Person] =sourceRDD.toDS()
//Dataset 支持强类型的API
dataset.filter(item => item.age >10).show()
//Dataset 支持若弱类型的API
dataset.filter('age>10).show()
//Dataset 可以直接编写SQL表达式
dataset.filter("age>10").show()
}
@Test
def database2(): Unit ={
val spark: SparkSession = new SparkSession.Builder()
.master("local[6]")
.appName("database2")
.getOrCreate()
import spark.implicits._
val dataset: Dataset[Person] =spark.createDataset(Seq(Person("张三",10),Person("李四",20)))
//无论Dataset中放置的是什么类型的对象,最终执行计划中的RDD上都是internalRow
//直接获取到已经分析和解析过得Dataset的执行计划,从中拿到RDD
val executionRdd: RDD[InternalRow] =dataset.queryExecution.toRdd
//通过将Dataset底层的RDD通过Decoder转成了和Dataset一样的类型RDD
val typedRdd:RDD[Person] = dataset.rdd
println(executionRdd.toDebugString)
println()
println()
println(typedRdd.toDebugString)
}
@Test
def database3(): Unit = {
//1.创建sparkSession
val spark: SparkSession = new SparkSession.Builder()
.appName("database1")
.master("local[6]")
.getOrCreate()
//2.导入引入shi子转换
import spark.implicits._
val dataFrame: DataFrame = Seq(Person("zhangsan", 15), Person("lisi", 20)).toDF()
//3.看看DataFrame可以玩出什么花样
//select name from...
dataFrame.where('age > 10)
.select('name)
.show()
}
// @Test
// def database4(): Unit = {
// //1.创建sparkSession
// val spark: SparkSession = new SparkSession.Builder()
// .appName("database1")
// .master("local[6]")
// .getOrCreate()
// //2.导入引入shi子转换
// import spark.implicits._
// val personList=Seq(Person("zhangsan",15),Person("lisi",20))
//
// //1.toDF
// val df1: DataFrame =personList.toDF()
// val df2: DataFrame =spark.sparkContext.parallelize(personList).toDF()
// //2.createDataFrame
// val df3: DataFrame =spark.createDataFrame(personList)
//
// //3.read
// val df4: DataFrame =spark.read.csv("")
// df4.show()
// }
//toDF()是转成DataFrame,toDs是转成Dataset
// DataFrame就是Dataset[Row] 代表弱类型的操作,Dataset代表强类型的操作,中的类型永远是row,DataFrame可以做到运行时类型安全,Dataset可以做到 编译时和运行时都安全
@Test
def database4(): Unit = {
//1.创建sparkSession
val spark: SparkSession = new SparkSession.Builder()
.appName("database1")
.master("local[6]")
.getOrCreate()
//2.导入引入shi子转换
import spark.implicits._
val personList=Seq(Person("zhangsan",15),Person("lisi",20))
//DataFrame代表弱类型操作是编译时不安全
val df: DataFrame =personList.toDF()
//Dataset是强类型的
val ds: Dataset[Person] =personList.toDS()
ds.map((person:Person) =>Person(person.name,person.age))
}
@Test
def row(): Unit ={
//1.Row如何创建,它是什么
//row对象必须配合Schema对象才会有列名
val p: Person =Person("zhangsan",15)
val row: Row =Row("zhangsan",15)
//2.如何从row中获取数据
row.getString(0)
row.getInt(1)
//3.Row也是样例类、
row match {
case Row(name,age) => println(name,age)
}
}
}
case class Person(name: String, age: Int)
来源:https://blog.csdn.net/m0_62491934/article/details/123840863


猜你喜欢
- Spring 框架是一个流行的Java应用程序框架,它提供了许多强大的功能,如依赖注入和面向切面编程。然而在使用 Spring 框架时,我们
- 之前学完了Java SE的知识,掌握了面向对象的编程思想,但对集合、多线程、反射、流的使用等内容理解的还不是很深入,打算再学习数据结构与算法
- spring的事务控制本质上是通过aop实现的。在springboot中使用时,可以通过注解@Transactional进行类或者方法级别的
- 目前只实现了java生成的固定的uuid:85bb94b8-fd4b-4e1c-8f49-3cedd49d8f28的序列化package m
- 一直在使用Mybatis这个ORM框架,都是使用mybatis里的一些常用功能。今天在项目开发中有个业务是需要限制各个用户对某些表里的字段查
- 前置导入什么是多环境?其实就是说你的电脑上写的程序最终要放到别人的服务器上去运行。每个计算机环境不一样,这就是多环境。常见的多环境开发主要兼
- 本文实例为大家分享了Android实现滚动日期选择器的具体代码,供大家参考,具体内容如下wheelview滚动效果的View这段时间需要用到
- 下面提供代码示例,请参考。public boolean onKeyDown(int keyCode, KeyEvent event) {&n
- 最近,在与同事进行协同编程时,我们开始讨论在C#中初始化新对象的最佳方法。我一直是使用构造函数实现,尽管他倾向于静态工程方法。这引起了关于每
- 本文实例为大家分享了java启动线程的方法,供大家参考,具体内容如下1.继承Threadpublic class java_thread e
- 一、简介上篇介绍了一个自己做的管理系统,最近空闲的时间自己在继续做,把之前登录时候自定义的 * 过滤器换成了基于SpringSecurity
- 简介本文用示例介绍SpringMVC如何通过JSON格式传递入参。JSON格式使用post方式来请求,即:对应的注解为:@PostMappi
- 本文实例为大家分享了Android实现图片加载进度提示的具体代码,供大家参考,具体内容如下先上图:实现原理:第一个控件的实现原理是重写Ima
- 策略模式也是一种非常常用的设计模式,而且也不复杂。下面我们就来看看这种模式。定义:策略模式定义了一系列的算法,并将每一个算法封装起来,而且使
- 1 @SpringBootApplication自动配置原理@SpringBootApplication是一个组合注解,主要由@Compon
- C#程序自删除核心实现方法就是调用 cmd 传入命令行,等待几秒之后删除文件;应用程序在运行时,是不能将 exe 文件进行删除的。但是可以将
- 今天在于硬件进行交互的过程中,要到了了需要两个数组进行合并,然后对数组进行反转和加密操作,以下是两个byte数组合并的方法。/** *
- 实现以下功能:验证字符串是否由正负号(+-)、数字、小数点构成,并且最多只有一个小数点验证字符串是否仅由[0-9]构成验证字符串是否由字母和
- Android 打开相册选择单张图片实现代码
- 本文所述为一个由C#编写的音乐播放器的主Form代码,里面有一些小技巧还是不错的,现共享给大家参考一下。里面有播放器背景设置、线程定义、调用