位置：首页>> 网络编程>> Python编程>> spark: RDD与DataFrame之间的相互转换方法

spark: RDD与DataFrame之间的相互转换方法

作者：birdlove1987　　发布时间：2023-06-09 23:24:04　

标签：spark,RDD,DataFrame

DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架，但其经过了优化。DataFrames可以从各种各样的源构建，例如：结构化数据文件，Hive中的表，外部数据库或现有RDD。

DataFrame API 可以被Scala，Java，Python和R调用。

在Scala和Java中，DataFrame由Rows的数据集表示。

在Scala API中，DataFrame只是一个类型别名Dataset[Row]。而在Java API中，用户需要Dataset<Row>用来表示DataFrame。

在本文档中，我们经常将Scala/Java数据集Row称为DataFrames。

那么DataFrame和spark核心数据结构RDD之间怎么进行转换呢？

代码如下：

# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.sql import Row

if __name__ == "__main__":
# 初始化SparkSession
spark = SparkSession \
.builder \
.appName("RDD_and_DataFrame") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()

sc = spark.sparkContext

lines = sc.textFile("employee.txt")
parts = lines.map(lambda l: l.split(","))
employee = parts.map(lambda p: Row(name=p[0], salary=int(p[1])))

#RDD转换成DataFrame
employee_temp = spark.createDataFrame(employee)

#显示DataFrame数据
employee_temp.show()

#创建视图
employee_temp.createOrReplaceTempView("employee")
#过滤数据
employee_result = spark.sql("SELECT name,salary FROM employee WHERE salary >= 14000 AND salary <= 20000")

# DataFrame转换成RDD
result = employee_result.rdd.map(lambda p: "name: " + p.name + " salary: " + str(p.salary)).collect()

#打印RDD数据
for n in result:
print(n)

来源：https://blog.csdn.net/zhurui_idea/article/details/73090951

0

投稿

猜你喜欢

Js中的函数直接量
这几天一直在看《Pro JavaScript Techniques》，书中有不少优美、健壮代码，让我不得不惊叹老外对语言这东西的研究程度之深
详解pandas使用drop_duplicates去除DataFrame重复项参数
Pandas之drop_duplicates：去除重复项方法DataFrame.drop_duplicates(subset=None, k
TensorFlow Session会话控制&Variable变量详解
这篇文章主要讲TensorFlow中的Session的用法以及Variable。Session会话控制Session是TensorFlow为
Python2与Python3的区别点整理
python解释器默认编码（python2与python3的区别一）python2 解释器默认编码：asciipython3 解释器默认编码
用Javascript正则表达式验证Email地址
白天总是玩着不看书，这两晚却很神奇地因为睡不着起来看书，正则表达式。很好玩的东西。《Javascript 高级程序设计》是本好书，写得很系统
tf.nn.conv2d与tf.layers.conv2d的区别及说明
tf.nn.conv2d与tf.layers.conv2d的区别在写CNN中注意到tensorflow目前有tf.nn.conv2d和tf.
Python PyQt5模块实现一个浏览器的示例代码
1. 首先是环境的安装（本人使用的是PyCharm，python3.6）pip3 install PyQt5 (没有指定版本的话，默认会安
Thinkphp3.2.3反序列化漏洞实例分析
前言ThinkPHP,是为了简化企业级应用开发和敏捷WEB应用开发而诞生的开源轻量级PHP框架。随着框架代码量的增加，一些潜在的威胁也逐渐暴
可刷新的Div+CSS+JS二级下拉树型菜单
Div+CSS+JS组和能够实现很多好看的特殊的效果，这里推荐一款可刷新的下拉菜单：下面是js代码部分：<script type=te
如何编写一个高效的国税系统通讯录数据库？
为某国税局开发一综合 * ，需要建立一个庞大的国税系统通讯录数据库，从各省、市到每名具体工作人员，项目较多，该如何设计各表呢？数据库的表设计
一个滑动展示的小代码
一个写给别人的小代码顺便也贴上来这是一个滑动展示用的小容器通过鼠标移动和离开触发滑动效果<!DOCTYPE html PUBLIC &
SQL Server Bulk Insert 只需要部分字段时的方法
根据一般做法的话，导出部分字段时没有办法生成格式化XML文件，所以导入时就没有办法格式化导入数据。我想到两点，1.手工修改格式化XML文件
python验证身份证信息实例代码
identity-card验证身份证号码的正确性,不能仅仅通过正则表达式来验证，我们都知道我国的身份证一共是18位，由十七位数字本体码和一位
一道求$b相对于$a的相对路径的php代码
php面试题的题目： $a = '/a/b/c/d/e.php'; $b = '/a/b/12/34/c.php&#
网站有效设计的10个原则
原文：10 Principles Of Effective Web Design翻译：熊猫2008-02-03本文由熊猫同学授权翻译首发。并
不成熟的标准化是我们唯一惧怕的
The Only Thing We Have To Fear Is Premature Standardization原文地址：http:/
pandas数据处理进阶详解
一、pandas的统计分析1、关于pandas 的数值统计（统计detail 中的单价的相关指标）import pandas as pd#
Python字体反爬实战案例分享
实战场景本篇博客学习字体反爬，涉及的站点是实习 x，目标站点地址直接百度搜索即可。可以看到右侧源码中出现了很多&ldqu
python opencv对图像进行旋转且不裁剪图片的实现方法
最近在做深度学习时需要用到图像处理相关的操作，在度娘上找到的图片旋转方法千篇一律，旋转完成的图片都不是原始大小，很苦恼，于是google到歪
模拟下拉菜单[兼容IE系列以及火狐]
兼容主流浏览器，独立样式表，可以很方便的进行视觉效果自定义截图：模拟下拉菜单演示代码：<!DOCTYPE html PUBLIC &q

python实现凯撒密码、凯撒加解密算法

numpy的sum函数的axis和keepdim参数详解

基于Opencv图像识别实现答题卡识别示例详解

Python爬虫实战之虎牙视频爬取附源码

Python爬虫使用脚本登录Github并查看信息

python文件编译为pyc后运行的实现步骤

python利用socketserver实现并发套接字功能

Python wxpython模块响应鼠标拖动事件操作示例

python numpy实现rolling滚动案例

吴恩达机器学习练习:神经网络(反向传播)

XP连接宽带的时候提示“找不到文件netcfg.hlp”怎么办？

如何在Win7下禁用DirectDraw解决截图变黑问题

word2013如何使用插入和改写模式

wps文字如何设置段落首字下沉

Win10电脑很卡怎么办？Win10电脑必须做的优化教程

Win10系统蓝屏重启的原因及解决方法

Spring Security基于散列加密方案实现自动登录功能

wps文字上下居中怎么弄？wps文字上下居中教程分享！

WheelView实现上下滑动选择器

JavaScript 中的 setAttribute

手机版 网络编程 asp之家 www.aspxhome.com