Pandas实现在线文件和剪贴板数据读取详解
作者:尤而小屋 发布时间:2021-06-02 16:49:55
标签:Pandas,数据,读取
前言
大家好,我是Peter~
本文记录的是Pandas两种少用的读取文件方式:
读取在线文件的数据
读取剪贴板的数据
声明:本文案例和在线数据仅用于学术分享
read_html
该函数表示的是直接读取在线的html文件,一般是表格的形式;将HTML的表格转换为DataFrame的一种快速方便的方法。
这个方法对于快速合并来自不同网页上的表格非常有用,就省去了爬取数据再来读取的时间。
具体函数的参数为:
pandas.read_html(io,??#?文件 io 对象;路径或者io.Strings对象
?????????????????match='.+',??#?str?或编译的正则表达式,可选
?????????????????flavor=None,?#?要使用的解析引擎,?None是默认值
?????????????????header=None,??#?文件表头
?????????????????index_col=None,??#?索引
?????????????????skiprows=None,??#?跳过行
?????????????????attrs=None,???#?属性
?????????????????parse_dates=False,???#?日期解析
?????????????????thousands=',',???#?千分位
?????????????????encoding=None,???#?编码
?????????????????decimal='.',???#?识别为小数点的字符
?????????????????converters=None,???#?属性转换
?????????????????na_values=None,??#??空值信息
?????????????????keep_default_na=True,???#?是否保持空值
?????????????????displayed_only=True??#?是否应该解析带有“display:none”?的元素
????????????????)
在线文件1
读取 * 上一份历届奥运会乒乓球冠军的相关数据。该地址下的部分表格形式的数据:
In [3]:
url?=?"https://zh.m.wikipedia.org/zh/%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A%E4%B9%92%E4%B9%93%E7%90%83%E5%A5%96%E7%89%8C%E5%BE%97%E4%B8%BB%E5%88%97%E8%A1%A8"
df?=?pd.read_html(url)
df
Out[3]:
我们观察到此时读取到的df是一个列表,总长度是15
list
In [4]:
len(df)
Out[4]:
9
查看列表中的部分元素:此时就是一个个的DataFrame形式的数据
在线文件2
一个国外网站下的数据
In [7]:
df1?=?pd.read_html("https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list")
type(df1)
Out[7]:
list
In [8]:
len(df1)
Out[8]:
1
In [9]:
df1[0]
Out[9]:
读取在线CSV文件
以读取GitHub上一个CSV文件为例:
方式1:直接读取
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
pd.read_csv(url)
方式2:通过io.Strings对象
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
response=requests.get(url).content??#?先发请求
df2?=?pd.read_csv(io.StringIO(response.decode('utf-8')))
?
df2??#?效果同上
Pandas读取剪贴板
pandas.read_clipboard(sep='\\s+',?**kwargs)
官网地址
一个简单的例子说明函数使用:假设本地目录下有这样Excel表格的数据
1、先剪贴数据:【Ctrl + C】
2、运行代码下面的代码,按下MacOS中的【向上的箭头】 + 【回车键】,完成读取
Windows下面应该是【Shift + Enter】
如果数据比较少,省去了通过Excel或者CSV文件的读取方式的时间:
来源:https://mp.weixin.qq.com/s/qyWnRtTyyDNt9LxIYwM0BQ


猜你喜欢
- 知乎上有人说,Python3.6以后字典有序且更高效了。群里有同学推荐了这篇文章给我看,并咨询字典排序的问题。大致浏览了一下,我当即表示不能
- 这段时间在爬取了杭州某网站发布的二手房信息,在作图的时候发现在地图呈现上还是有欠缺,这里就把用到的贴出来,提升一下记忆。之前有接触用Base
- MySQL select into临时表最近在编写sql语句时,遇到两次将数据放temp表,然后将两次的temp表进行inner join,
- 前言最近需要读取Excel中的内容,然后进行后续操作,对于这块知识,博主以前以为自己不会涉及到,但是现在一涉及到,第一步就错了,搞了好久。真
- 持续集成(CI)作业可以产生大量的数据。当作业失败时,找出了什么问题可能是一个繁琐的过程,需要对日志进行调查以发现根本原因-这通常是在作业总
- 在这篇文章中,我将介绍如何识别导致性能出现问题的查询,如何找出它们的问题所在,以及快速修复这些问题和其他加快查询速度的方法。你一定知道,一个
- 检测submit事件的冒泡情况:<!doctype html><html dir="ltr" lang
- 解包在英文里叫做 Unpacking,就是将容器里面的元素逐个取出来放在其它地方,好比你父母去菜市场买了一袋苹果回来分别发给家里的每个成员,
- 本文实例为大家分享了python实现事件驱动的具体代码,供大家参考,具体内容如下EventManager事件管理类实现,大概就百来行代码左右
- 我们在做自动化运维的时候,经常需要调用api中的接口,不过很多人不知道具体的调用方法,在学习python中的requests库后,我们就可以
- 之前一直在windows环境使用pycharm加上virtualenv方式开发,最近由于本地多个virtualenv比较混乱,所以尝试切换a
- 1、tensorflow(不定长)文本序列读取与解析tensorflow读取csv时需要指定各列的数据类型。但是对于RNN这种接受序列输入的
- 地图服务是指可以提供数据信息的接口,比如说本地搜索/路线规划等,下面小编给大家整理下百度地图API之本地搜索和范围搜索,具体请看下文。地图服
- 本文实例讲述了Python求一批字符串的最长公共前缀算法。分享给大家供大家参考,具体如下:思路一:这个题一拿到手,第一反应就是以第一个字符串
- 界面的制作一直是 Python 的痛!使用 Python 制作桌面端界面是非常痛苦的过程(又难学又难看)。不过,Python 已经出现了几个
- 1. os.system(shell_command)直接在终端输出执行结果,返回执行状态0,1此函数会启动子进程,在子进程中执行comma
- 设置某个字段的值自增由于某个业务需要手动操作数据库,并设置主键ID不重复。做个记录set @rownum=0;select a.id, @r
- 好吧,我承认我是对晚上看到一张合适的票转让但打过电话去说已经被搞走了这件事情感到蛋疼。直接上文件吧。#coding: utf-8'&
- 一、首先进入官网https://www.python.org/1.点击Downloads 如图显示3.91 点击2.双击安装程序,进入下面的
- mysql> SELECT something FROM tbl_name WHERE TO_DAYS(NOW()) – TO_DAY