python读取hdfs上的parquet文件方式
作者:二加三等于五 发布时间:2021-04-07 11:54:31
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊。从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以):
1、安装anaconda环境。
2、安装hdfs3。
conda install hdfs3
3、安装fastparquet。
conda install fastparquet
4、安装python-snappy。
conda install python-snappy
5、读取文件
##namenode mode:
from hdfs3 import HDFileSystem
from fastparquet import ParquetFile
hdfs = HDFileSystem(host=IP, port=8020)
sc = hdfs.open
pf = ParquetFile(filename, open_with=sc)
df = pf.to_pandas()
##返回pandas的DataFrame类型
##HA mode:
from hdfs3 import HDFileSystem
from fastparquet import ParquetFile
host = "nameservice1"
conf = {
"dfs.nameservices":"nameservice1",
......
}
hdfs = HDFileSystem(host = host, pars = conf)
......
python访问HDFS HA的三种方法
python访问hdfs常用的包有三个,如下:
1、hdfs3
其实从安装便捷性和使用上来说,并不推荐hdfs3,因为他的系统依赖和网络要求较高,但是某些情况下使用hdfs3会比较方便,官网资料点这里。如上面介绍,IP直接访问namenode:
from hdfs3 import HDFileSystem
hdfs = HDFileSystem(host=namenode, port=8020)
hdfs.ls('/tmp')
HA访问:
host = "nameservice1"
conf = {"dfs.nameservices": "nameservice1",
"dfs.ha.namenodes.nameservice1": "namenode113,namenode188",
"dfs.namenode.rpc-address.nameservice1.namenode113": "hostname_of_server1:8020",
"dfs.namenode.rpc-address.nameservice1.namenode188": "hostname_of_server2:8020",
"dfs.namenode.http-address.nameservice1.namenode188": "hostname_of_server1:50070",
"dfs.namenode.http-address.nameservice1.namenode188": "hostname_of_server2:50070",
"hadoop.security.authentication": "kerberos"
}
fs = HDFileSystem(host=host, pars=conf)
##或者下面这种配置
host = "ns1"
conf = {
"dfs.nameservices":"ns1",
"dfs.ha.namenodes.ns1":"namenode122,namenode115",
"dfs.namenode.rpc-address.ns1.namenode122":"nnlab01:8020",
"dfs.namenode.servicerpc-address.ns1.namenode122":"nnlab01:8022",
"dfs.namenode.http-address.ns1.namenode122":"nnlab01:50070",
"dfs.namenode.https-address.ns1.namenode122":"nnlab01:50470",
"dfs.namenode.rpc-address.ns1.namenode115":"nnlab02:8020",
"dfs.namenode.servicerpc-address.ns1.namenode115":"nnlab02:8022",
"dfs.namenode.http-address.ns1.namenode115":"nnlab02:50070",
"dfs.namenode.https-address.ns1.namenode115":"nnlab02:50470",
}
hdfs = HDFileSystem(host = host, pars = conf)
2、hdfs
这种方法在使用的时候配置比较简单,官网资料也比较丰富,但是需要注意的是该API可以模拟用户访问,权限较大。IP直接访问:
import hdfs
client = hdfs.client.InsecureClient(url="http://namenode:50070", user="hdfs")
HA访问:
import hdfs
client = hdfs.client.InsecureClient(url="http://namenode1:50070;http://namenode2:50070", user="hdfs")
3、pyhdfs
安装命令:pip install PyHDFS
官网地址,直接访问:
import pyhdfs
client = pyhdfs.HdfsClient(hosts="namenode:50070",user_name="hdfs")
HA访问
import pyhdfs
client = pyhdfs.HdfsClient(hosts=["namenode1:50070","namenode2:50070"],user_name="hdfs")
补充知识:python spark中parquet文件写到hdfs,同时避免太多的小文件(block小文件合并)
在pyspark中,使用数据框的文件写出函数write.parquet经常会生成太多的小文件,例如申请了100个block,而每个block中的结果
只有几百K,这在机器学习算法的结果输出中经常出现,这是一种很大的资源浪费,那么如何同时避免太多的小文件(block小文件合并)?
其实有一种简单方法,该方法需要你对输出结果的数据量有个大概估计,然后使用Dataframe中的coalesce函数来指定输出的block数量
即可,具体使用代码如下:
df.coalesce(2).write.parquet(path,mode)
这里df是指你要写出的数据框,coalesce(2)指定了写到2个block中,一个block默认128M,path是你的写出路径,mode是写出模式,常用的是
"overwrite"和"append"。
来源:https://blog.csdn.net/haveanybody/article/details/79928203


猜你喜欢
- 最近在玩数据库的时候,偶尔会有外键创建不成功的时候,于是上网查阅资料,整合自己的理解有了以下这篇文章:mysql创建外键不成功的原因及处理方
- 前言之前说了怎么写机器码到内存,然后调用。现在说说怎么优化。用Python发送微信消息给好友第二次优化再看一遍c语言的代码void Send
- 函数形式:index_select( dim, index)参数:dim:表示从第几维挑选数据,类型为int值;index:表示从第一个参数
- 数据库设计(Database Design)的概念:数据库设计是指对于一个给定的应用环境,构造最优的数据库模式,建立数据库及其应用系统,使之
- 我们知道,全局临时表的生命周期一直持续到创建会话(不是创建级别)才终止。有时候,你可能想创建一个不属于任何会话的全局临时表。而无论你进行什么
- 本文实例为大家分享了Python实现图书馆座位自动预约的具体代码,供大家参考,具体内容如下配置通过公网主机定时运行脚本,并发送邮件到自己的q
- 前言:record类型,这是一种新引用类型,而不是类或结构。record与类不同,区别在于record类型使用基于值的相等性。例如:publ
- 一、前言Matplotlib是Python的绘图库,不仅具备强大的绘图功能,还能够在很多平台上使用,和Jupyter Notebook有极强
- 看到这个文章肯定一点就是你把sql没有装到C盘里,呵呵不用怕看下面在安装的时候要注意:在安装SQL Server 2005 Express时
- 本文实例讲述了python实现将元祖转换成数组的方法。分享给大家供大家参考。具体分析如下:python的元祖使用一对小括号表示的,元素是固定
- 一、什么是函数装饰器1.函数装饰器是Python提供的一种增强函数功能的标记函数;2.装饰器是可调用的函数对象,其参数是另一个函数(被装饰的
- 查询重写插件从MySQL 5.7.6开始,MySQL Server支持查询重写插件,可以在服务器执行之前检查并可能修改服务器接收的语句。以下
- 目录1.引言2.获取目标网站3.爬取目标网站4.解析爬取内容4.1. 解析全国今日总况4.2. 解析全国各省份疫情情况4.3. 解析江苏各地
- 该章节来开始学习分组查询,上一章节我们学习了聚合函数,默认统计的是全表范围内的数据,配合上 WHERE 就能够缩小统计的范围了。但是这并不能
- pytorch中index_select()的用法index_select(input, dim, index)功能:在指定的维度dim上选
- DROP TABLE 数据表名称 (永久性删除一个数据表) 删除记录:delete from&nbs
- 本文实例分析了Python兔子毒药问题。分享给大家供大家参考。具体分析如下:问题大致是这样的:1000瓶无色无味的液体,其中一瓶为毒药,其它
- 1. 关闭mysql服务# service mysqld stop2. 检查是否有rpm包,如果没有用rpm安装过mysql,不应该有残留,
- 今天给大家分享腾讯云的实名认证接口的调用点击免费获取产品from __future__ import print_functionimpor
- 前言目前机器学习框架有两大方向,Pytorch和Tensorflow 2。对于机器学习的小白的我来说,直观的感受是Tensorflow的框架