位置：首页>> 网络编程>> Python编程>> Pyspark读取parquet数据过程解析

Pyspark读取parquet数据过程解析

作者：落日峡谷　　发布时间：2022-01-21 13:33:38　

标签：py,spark,parquet,数据

parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。

那么我们怎么在pyspark中读取和使用parquet数据呢？我以local模式，linux下的pycharm执行作说明。

首先，导入库文件和配置环境：

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定

conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后，使用spark进行读取，得到DataFrame格式的数据：host:port 属于主机和端口号

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而，DataFrame格式数据有一些方法可以使用，例如：

1.df.first() ：显示第一条数据，Row格式

print(df.first())

2.df.columns：列名

3.df.count()：数据量，数据条数

4.df.toPandas()：从spark的DataFrame格式数据转到Pandas数据结构

5.df.show()：直接显示表数据；其中df.show(n) 表示只显示前n行信息

6.type(df)：显数据示格式

来源：https://www.cnblogs.com/qi-yuan-008/p/12493082.html

0

投稿

猜你喜欢

Pandas 筛选和删除目标值所在的行的实现
1.筛选出目标值所在行单列筛选# df[列名].isin([目标值])对当前列中存在目标值的行会返回True，不存在的返回Fal
django与小程序实现登录验证功能的示例代码
之前用小程序做项目，因为后台使用的java开发，一切顺利，但切换成django做RESTful API接口时，在登陆注册时一直出现问题，网上
python中正则表达式的使用方法
本文主要关于python的正则表达式的符号与方法。findall: 找寻所有匹配，返回所有组合的列表search: 找寻第一个匹配并返回su
python 正则表达式概述及常用字符
1.元字符： . 它匹配除了换行字符外的任何字符，在 alternate 模式（re.DOTALL）下它甚至可以匹配换行 ^ 匹配行首。除非
asp如何在读取Excel文件时创建列表的下拉菜单？
如何在读取Excel文件时创建列表的下拉菜单？代码如下，用来创建工作表列表的下拉菜单： < select
从外到内提高SQL Server数据库性能
如何提高SQL Server数据库的性能，该从哪里入手呢?笔者认为，该遵循从外到内的顺序，来改善数据库的运行性能。如下图：第一层
Django+Nginx+uWSGI 定时任务的实现方法
摘要在Nginx和uWSGI还没配置时，单独在url.py使用apscheduler设置定时任务，使用python manage.py ru
在MySQL中使用更新日志文件
你不可能随时备份数据，但你的数据丢失时，或者数据库目录中的文件损坏时，你只能恢复已经备份的文件，而在这之后的插入或更新的数据，就无能为力了
对Python的交互模式和直接运行.py文件的区别详解
看到类似C:\>是在Windows提供的命令行模式，看到>>>是在Python交互式环境下。在命令行模式下，可以执行
Python利用requests模块下载图片实例代码
本文主要介绍的是关于Python利用requests模块下载图片的相关，下面话不多说了，来一起看看详细的介绍吧MySQL中事先保存好爬取到的
GIt在pyCharm的详细使用教程记录
（一）Git的安装和配置1.下载git，git的官网是：https://git-scm.com/1.1右下角点击安装，安装过程一直下一步。1
python 多线程死锁问题的解决方案
死锁的原理非常简单，用一句话就可以描述完。就是当多线程访问多个锁的时候，不同的锁被不同的线程持有，它们都在等待其他线程释放出锁来，于是便陷入
Python 分发包中添加额外文件的方法
在制作一个 Python 分发包时经常需要把一些文件添加到包中。最常见的例子是你希望通过 pip install 命令安装 Pyt
ASP用csDrawGraph组件制作饼图、柱状图
我们工作中经常需要将数据转化成柱状图，饼图等，以方便直观的分析数据，这里给大家介绍一个ASP中制作饼图、柱状图的组件：csDra
Microsoft VBScript 运行时错误错误 800a0005 无效的过程调用或参数: chr
昨天给公司服务器重做了一下系统,遇到Asp附件无法上传,之前服务器上使用好好的,怎么重做了就不正常了,于是一番google，baidu，下面
Django发送邮件和itsdangerous模块的配合使用解析
项目需求：用户注册页面注册之后，系统会发送一封邮件到用户邮箱，用户点击链接以激活账户，其中链接中的用户信息需要加密处理一下其中激活自己邮箱的
使用Python读取二进制文件的实例讲解
目标：目标文件为一个float32型存储的二进制文件，按列优先方式存储。本文使用Python读取该二进制文件并使用matplotlib.py
python爬虫爬取网页数据并解析数据
1.网络爬虫的基本概念网络爬虫（又称网络蜘蛛，机器人），就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的
基于h5py的使用及数据封装代码
1. h5py简单介绍h5py文件是存放两类对象的容器，数据集(dataset)和组(group)，dataset类似数组类的数据集合，和n
关于adfuller函数返回值的参数说明与记录
adfuller函数返回值的参数说明from statsmodels.tsa.stattools import adfullert = ad

Python实现连接dr校园网示例详解

jupyter notebook如何使用matlab

Pandas实现批量拆分与合并Excel的示例代码

python3使用matplotlib绘制条形图

如何在Python中隐藏和加密密码示例详解

python实现将html表格转换成CSV文件的方法

Python错误+异常+模块总结

Python装饰器实现方法及应用场景详解

Python实现排序方法常见的四种

python GUI库图形界面开发之PyQt5布局控件QGridLayout详细使用方法与实例

简单好用的Adapter---ArrayAdapter详解

WPS表格中如何求和？

怎么重置电脑出厂设置win7

wps2019怎么统计表格中的人数？wps2019统计表格中的人数教程

word2016怎么去掉引用参考文献中的横线

Sun拟10亿美元收购MySQL

苹果M1新Mac半年就能写坏一块硬盘？专家回应来了

基于Android LayoutInflater的使用介绍

苹果的MAC操作系统大战微软windows的十个优势介绍

给站长们的定心丸解决引擎收录问题

手机版 网络编程 asp之家 www.aspxhome.com