python语言中pandas字符串分割str.split()函数
作者:hanyunkaka 发布时间:2022-01-30 16:55:56
前言
为了介绍python语言中pandas库在数据分析中的重要作用,本人打算以NBA球星勒布朗詹姆斯在2020-2021赛季常规赛个人数据为例对pandas相关函数进行详细说明。利用爬虫技术,在知名篮球网站虎扑爬取了勒布朗詹姆斯的数据,稍后会将数据上传至csdn,以供大家下载。
这篇文章,详细介绍了pandas字符串分割函数---str.split()的用法。
DataFrame.str.split(pa,n,expand)
pat:字符串分隔符,默认为空格。
n:用于指定需要分割的次数,默认为-1。其中,None,0和-1都被解释为返回所有分割的字符串。
expand:将拆分的字符串展开为单独的列,默认为False。True:返回DataFrame / MultiIndex;
False:返回包含字符串列表的Series / Index。
1、常规赛数据格式
勒布朗詹姆斯2020-2021赛季常规赛个人数据的数据结构如下:
日期 | 对手 | 比分 | 时间 | 投篮 | ... |
05/17 | 鹈鹕 | 110-98(胜) | 27 | 11-22 | ... |
05/16 | 步行者 | 122-115(胜) | 28 | 11-22 | ... |
... | ... | ... | ... | ... | ... |
2、计算詹姆斯常规赛命中率
勒布朗詹姆斯2020-2021赛季常规赛个人数据中只有每场比赛的命中率,数据的第4列为每场比赛的投篮数和命中数,格式为"命中数-投篮数"。如果想要计算詹姆斯整个常规赛的命中率,则需要算出他常规赛的投篮数和命中数。此时,需要用到pandas分割字符串函数str.split()。
import numpy as np
import pandas as pd
df = pd.read_csv(“lbj-2020-2021-regular.csv”,encoding="gbk")
df0 = df['投篮'].str.split("-",expand=True)
df0.columns = ['命中数','投篮数']
DataFrame类型的df0即为詹姆斯常规赛的命中数和投篮数,如下所示:
0 | 命中数 | 投篮数 |
1 | 11 | 22 |
2 | 11 | 22 |
... | ... | ... |
因为要分别求取命中数和投篮数的总和,所以需要将df0的列转化为整型,继而可得到詹姆斯整个常规赛的命中率。
df0['命中数'] = df0['命中数'].astype('int')
df0['投篮数'] = df0['投篮数'].astype('int')
ShootRate = df0['命中数'].sum() / df0['投篮数'].sum()
计算得到,詹姆斯2020-2021常规赛投篮命中率为51.34%,还是很不错的水平。
来源:https://blog.csdn.net/hanyunkaka/article/details/120586261


猜你喜欢
- 主要需要pd.ExcelWriter([文件路径])方法参考官方文档:>>> writer = pd.ExcelWrite
- 1、TCP连接的建立方法客户端在建立一个TCP连接时一般需要两步,而服务器的这个过程需要四步,具体见下面的比较。步骤TCP客户端TCP服务器
- 一、概述本文将介绍如何使用python3给企业微信发送消息。我的环境是linux + python3.6.10。二、python脚本#!/u
- 简介由于项目在注册、登录、找回密码 时需要发送短信验证的功能,我们使用腾讯云短信做。为什么要用腾讯云短信呢? 因为注册就送 100条免费短信
- 使用attachEvent对同一事件进行多次绑定,这是解决事件函数定义冲突的重要方法。但是在IE中,函数内的this指针并没有指向被绑定元素
- 主要原理:调整dicom的窗宽,使之各个像素点上的灰度值缩放至[0,255]范围内。使用到的python库:SimpleITK下面是一个将d
- 本文实例为大家分享了swiper Scrollbar滚动条组件的具体代码,供大家参考,具体内容如下1、scrollbar为Swiper增加滚
- CSS Sprites技术不新鲜,早在2005年 CSS Zengarden 的园主 Dave Shea 就在 ALA
- 前言在开发工作中,我们经常需要用到日期与时间,如:作为日志信息的内容输出计算某个功能的执行时间用日期命名一个日志文件的名称记录或展示某文章的
- 在项目中操作数据库的三大步骤安装操作 MySQL 数据库的第三方模块(mysql)通过 mysql 模块连接到 MySQL 数据库通过 my
- 前言大家可能经常收到安全部门的警告邮件,SQL注入,XSS攻击漏洞等等,偶尔还被黑客挂了小马,郁闷不?还有数据库执行太慢(根据经验基本是没有
- 因为一个需求,因为自己想多了一点东西,最后发现了一个问题,一个很奇怪的问题。这个问题我想还是我自己当初想法上的出路导致的吧,但想不通为什么会
- 在C#或者Java里面我们都知道,一个Class是要包含成员变量和方法的,对于GO语言的Struct也一样,我们也可以给Struct定义一系
- 1、二进制数、八进制数、十六进制数转十进制数 有一个公式:二进制数、八进制数、十六进制数的各位数字分别乖以各自的基数的(N-1)次方,其和相
- 设置某个字段的值自增由于某个业务需要手动操作数据库,并设置主键ID不重复。做个记录set @rownum=0;select a.id, @r
- 在用Python开发时(Windows环境),会碰到需要安装某个版本的第三方库,为了以后查找、安装方便,总结如下:windows版的各种Py
- 虽然以前我写过IE6、IE7、IE8共存的解决方案,但是看到IETester这个软件以后那些都已经没有意义了(那些办法副作用比较大,而且实现
- 第一种, 使用create_connection链接,需要pip install websocket-client (此方法不建议使用,链接
- 问题你想从一个简单的XML文档中提取数据。解决方案可以使用 xml.etree.ElementTree 模块从简单的XML文档中提取数据。为
- 本文实例讲述了Python找出list中最常出现元素的方法。分享给大家供大家参考,具体如下:假设一个list中保存着各种元素,需要统计每个元