python语言中pandas字符串分割str.split()函数
作者:hanyunkaka 发布时间:2022-01-30 16:55:56
前言
为了介绍python语言中pandas库在数据分析中的重要作用,本人打算以NBA球星勒布朗詹姆斯在2020-2021赛季常规赛个人数据为例对pandas相关函数进行详细说明。利用爬虫技术,在知名篮球网站虎扑爬取了勒布朗詹姆斯的数据,稍后会将数据上传至csdn,以供大家下载。
这篇文章,详细介绍了pandas字符串分割函数---str.split()的用法。
DataFrame.str.split(pa,n,expand)
pat:字符串分隔符,默认为空格。
n:用于指定需要分割的次数,默认为-1。其中,None,0和-1都被解释为返回所有分割的字符串。
expand:将拆分的字符串展开为单独的列,默认为False。True:返回DataFrame / MultiIndex;
False:返回包含字符串列表的Series / Index。
1、常规赛数据格式
勒布朗詹姆斯2020-2021赛季常规赛个人数据的数据结构如下:
日期 | 对手 | 比分 | 时间 | 投篮 | ... |
05/17 | 鹈鹕 | 110-98(胜) | 27 | 11-22 | ... |
05/16 | 步行者 | 122-115(胜) | 28 | 11-22 | ... |
... | ... | ... | ... | ... | ... |
2、计算詹姆斯常规赛命中率
勒布朗詹姆斯2020-2021赛季常规赛个人数据中只有每场比赛的命中率,数据的第4列为每场比赛的投篮数和命中数,格式为"命中数-投篮数"。如果想要计算詹姆斯整个常规赛的命中率,则需要算出他常规赛的投篮数和命中数。此时,需要用到pandas分割字符串函数str.split()。
import numpy as np
import pandas as pd
df = pd.read_csv(“lbj-2020-2021-regular.csv”,encoding="gbk")
df0 = df['投篮'].str.split("-",expand=True)
df0.columns = ['命中数','投篮数']
DataFrame类型的df0即为詹姆斯常规赛的命中数和投篮数,如下所示:
0 | 命中数 | 投篮数 |
1 | 11 | 22 |
2 | 11 | 22 |
... | ... | ... |
因为要分别求取命中数和投篮数的总和,所以需要将df0的列转化为整型,继而可得到詹姆斯整个常规赛的命中率。
df0['命中数'] = df0['命中数'].astype('int')
df0['投篮数'] = df0['投篮数'].astype('int')
ShootRate = df0['命中数'].sum() / df0['投篮数'].sum()
计算得到,詹姆斯2020-2021常规赛投篮命中率为51.34%,还是很不错的水平。
来源:https://blog.csdn.net/hanyunkaka/article/details/120586261
猜你喜欢
- 要以读文件的模式打开一个文件对象,使用Python内置的open()函数,传入文件名和标示符,标示符'r'表示读。>&
- 卷积在pytorch中有两种实现,一种是torch.nn.Conv2d(),一种是torch.nn.functional.conv2d(),
- 正文:本文展示一些高级的Python设计结构和它们的使用方法。在日常工作中,你可以根据需要选择合适的数据结构,例如对快速查找性的
- SQL Server数据库查询优化的常用方法总结:本文中,abigale代表查询字符串,ada代表数据表名,alice代表字段名。技巧一:问
- 前言随着圣诞的到来,大家纷纷@官方微信给自己的头像加上一顶圣诞帽。当然这种事情用很多P图软件都可以做到。但是作为一个学习图像处理的技术人,还
- 本文实例讲述了Python实现判断给定列表是否有重复元素的方法。分享给大家供大家参考,具体如下:题目很简单,只是简单温习一个方法,most_
- 一、VScode下载官网Download Visual Studio Code - Mac, Linux, Windows点击64 bit会
- 写在最前面:这个我打算分几次写,由于我们通过selenium拿到的图片会很模糊,所以使用Tesseract识别之前要对图片先进行处理。第一步
- 对于access数据库的日期时间类型字段存储的日期,直接从数据库中读出显示的效果是带时间的如,2009-06-13 18:00 ,如果只是希
- Pycharm 作为一款针对 Python 的编辑器,配置简单、功能强大、使用起来省时省心,对初学者友好,这也是为什么编程教室一直推荐新手使
- 一、Tensorlow结构import tensorflow as tfimport numpy as np#创建数据x_data = np
- 哎,以前写博文的时候没注意,有些图片用QQ来截取,获得的图片文件名都是类似于QQ截图20120926174732-300×15.png的形式
- 在开发高并发系统时有三把利器用来保护系统:缓存、降级和限流!为了保证在业务高峰期,线上系统也能保证一定的弹性和稳定性,最有效的方案就是进行服
- 本文实例讲述了python实现中文转换url编码的方法。分享给大家供大家参考,具体如下:今天要处理百度贴吧的东西。想要做一个关键词的list
- 解决步骤:1、先打开一个cmd2、cd到你的exe文件目录3、输入 .\***.exe来源:https:
- 前言:Python基础知识+结构+数据类型Python基础学习列表+元组+字典+集合今天的是Python基础学习的第三篇了,前面的知识点给大
- ASP链接MSSQL2005的链接字符串如下:Provider=SQLNCLI;Server=.\SQLEXPRESS;Database=m
- 这篇博客是自己《数据挖掘与分析》课程讲到正则表达式爬虫的相关内容,主要简单介绍Python正则表达式爬虫,同时讲述常见的正则表达式分析方法,
- 前言React核心的单向数据流、一切皆数据的state、不会改变的props,以及状态提升等等经常使用便不多总结,需要的看官方文档。JSXJ
- 在 Python 中,一般情况下我们可能直接用自带的 logging 模块来记录日志,包括我之前的时候也是一样。在使用时我们需要配置一些 H