Pandas实现在线文件和剪贴板数据读取详解
作者:尤而小屋 发布时间:2021-06-02 16:49:55
标签:Pandas,数据,读取
前言
大家好,我是Peter~
本文记录的是Pandas两种少用的读取文件方式:
读取在线文件的数据
读取剪贴板的数据
声明:本文案例和在线数据仅用于学术分享
read_html
该函数表示的是直接读取在线的html文件,一般是表格的形式;将HTML的表格转换为DataFrame的一种快速方便的方法。
这个方法对于快速合并来自不同网页上的表格非常有用,就省去了爬取数据再来读取的时间。
具体函数的参数为:
pandas.read_html(io,??#?文件 io 对象;路径或者io.Strings对象
?????????????????match='.+',??#?str?或编译的正则表达式,可选
?????????????????flavor=None,?#?要使用的解析引擎,?None是默认值
?????????????????header=None,??#?文件表头
?????????????????index_col=None,??#?索引
?????????????????skiprows=None,??#?跳过行
?????????????????attrs=None,???#?属性
?????????????????parse_dates=False,???#?日期解析
?????????????????thousands=',',???#?千分位
?????????????????encoding=None,???#?编码
?????????????????decimal='.',???#?识别为小数点的字符
?????????????????converters=None,???#?属性转换
?????????????????na_values=None,??#??空值信息
?????????????????keep_default_na=True,???#?是否保持空值
?????????????????displayed_only=True??#?是否应该解析带有“display:none”?的元素
????????????????)
在线文件1
读取 * 上一份历届奥运会乒乓球冠军的相关数据。该地址下的部分表格形式的数据:
In [3]:
url?=?"https://zh.m.wikipedia.org/zh/%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A%E4%B9%92%E4%B9%93%E7%90%83%E5%A5%96%E7%89%8C%E5%BE%97%E4%B8%BB%E5%88%97%E8%A1%A8"
df?=?pd.read_html(url)
df
Out[3]:
我们观察到此时读取到的df是一个列表,总长度是15
list
In [4]:
len(df)
Out[4]:
9
查看列表中的部分元素:此时就是一个个的DataFrame形式的数据
在线文件2
一个国外网站下的数据
In [7]:
df1?=?pd.read_html("https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list")
type(df1)
Out[7]:
list
In [8]:
len(df1)
Out[8]:
1
In [9]:
df1[0]
Out[9]:
读取在线CSV文件
以读取GitHub上一个CSV文件为例:
方式1:直接读取
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
pd.read_csv(url)
方式2:通过io.Strings对象
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
response=requests.get(url).content??#?先发请求
df2?=?pd.read_csv(io.StringIO(response.decode('utf-8')))
?
df2??#?效果同上
Pandas读取剪贴板
pandas.read_clipboard(sep='\\s+',?**kwargs)
官网地址
一个简单的例子说明函数使用:假设本地目录下有这样Excel表格的数据
1、先剪贴数据:【Ctrl + C】
2、运行代码下面的代码,按下MacOS中的【向上的箭头】 + 【回车键】,完成读取
Windows下面应该是【Shift + Enter】
如果数据比较少,省去了通过Excel或者CSV文件的读取方式的时间:
来源:https://mp.weixin.qq.com/s/qyWnRtTyyDNt9LxIYwM0BQ
0
投稿
猜你喜欢
- 概述在我们使用内置打印函数print时,打印出的Python数据结构对象总是一行的输出的方式,这样对数据结构较复杂或数据较多的对象的显示并不
- 在很多企业会使用闲置的 Windows 机器作为临时服务器,有时候我们想远程调用里面的程序或查看日志文件Windows 内置的服务
- 本文实例讲述了Python实现简单拆分PDF文件的方法。分享给大家供大家参考。具体如下:依赖pyPdf处理PDF文件切分pdf文件使用方法:
- 爬取网页的流程一般如下:选着要爬的网址(url)使用 python 登录上这个网址(urlopen、requests 等)读取网页信息(re
- 本文转自微信公众号:"算法与编程之美"一、前言三步搭建MUI页面主框架法包括新建含mui的HTML文件、输入mheade
- 一、Python安装Window系统下,python的安装很简单。访问python.org/download,下载最新版本,安装过程与其他w
- 自动生成api文档(不管是函数视图还是类视图都能显示)1.安装rest_framework_swagger库pip install djan
- 还是决定冠上ajax的头衔,毕竟很多人会用这个关键词搜索。虽然我认为这只是个炒作的概念,不过不得不承认ajax叫起来要方便多了。ajax的意
- 在MAC的Anaconda上使用pyspark,主要包括以下步骤:在MAC下安装Spark,并配置环境变量。在Anaconda中安装引用py
- <?php /* *@author 夜无眠  
- 假设在搜索框search中输入:“asp 编程” 先得到输入框中的内容:search=request("search")
- 大家已经从实际使用中了解了jquery这个javascript框架的强大,其实jquery更加强大的是可扩展。你可以编写自己的基于jquer
- 最近在老家找工作,无奈老家工作真心太少,也没什么面试机会,不过之前面试一家公司,提了一个有意思的需求,检测河面没有有什么船只之类的物体,我当
- 本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下# -*- coding: utf-8
- Python使用称为Python Path的搜索路径来查找使用import语句导入代码的模块。大多数代码只会汇入已经默认路径上的模块,通过安
- 一、使用 reflect.Type 创建实例在通过 reflect.TypeOf 函数获取到变量的反射类型对象之后,可以通过反射类型对象 r
- 本文讲述了python提示No module named images的解决方法,非常实用!分享给大家供大家参考。具体方法如下:出现提示:I
- sql语句中默认是不区分大小写的,所以语句: Sql代码 SELECT * FROM RecEngineBizInfo WHERE RecE
- 有件东西我观察了很多年,那就是很少有开发者会去使用SQL Server中的一个非常有用的东西——EX
- 模块导入方式: import osos模块是Python标准库中的一个用于访问操作系统相关功能的模块,os模块提供了一种可移植的使