Python使用pandas导入csv文件内容的示例代码
作者:smart_cat 发布时间:2022-07-25 15:34:16
使用pandas导入csv文件内容
1. 默认导入
在Python中导入.csv文件用的方法是read_csv()。
使用read_csv()进行导入时,指定文件名即可
import pandas as pd
df = pd.read_csv(r'G:\test.csv')
print(df)
2. 指定分隔符
read_csv()默认文件中的数据都是以逗号分开的,但是有的文件不是用逗号分开的,这个时候就需要人为指定分隔符号,否则就会报错。
分隔符通过sep参数指定。常见的分隔符除了逗号,还有空格以及制表符(\t)等
import pandas as pd
df = pd.read_csv(r'G:\test.csv', sep=',')
print(df)
3. 指定读取行数
假设现在有一个几百兆的文件,你想了解一下这个文件里有哪些数据,那么这个时候你就没必要把全部数据都导入,你只要看到前面几行即可,因此只要设置 nrows参数即可。
import pandas as pd
df = pd.read_csv(r'G:\test.csv', sep=',', nrows=2)
print(df)
4. 指定编码格式
每个文件都是有编码格式的,常用的编码格式有utf-8和gbk等。有的时候两个文件看起来一样,它们的文件名一样,格式也一样,但如果它们的编码格式不一样,也是不一样的文件,比如当你把一个Excel文件另存为保存时会出现两个选项,虽然都是.csv文件,但是这两种格式代表两种不同的文件
Python用得比较多的两种编码格式是UTF-8和gbk,默认编码格式是UTF-8。我们要根据导入文件本身的编码格式进行设置,通过设置参数encoding来设置导入的编码格式。
如果我们不指定encoding参数, 默认是使用utf-8编码格式。
import pandas as pd
df = pd.read_csv(r'G:\test.csv', sep=',', nrows=3, encoding='utf-8')
print(df)
如果是CSV(逗号分隔) (*.csv)格式的文件,那么在导入的时候就需要把编码格式更改为gbk,如果使用UTF-8就会报错。
5. 列标题与数据对齐
因为我们的表格中有中文,中文占用的字符和英文、数字占用的字符不一样,因此需要调用pd.set_option()使表格对齐显示。如果你是使用 Jupyter 来运行代码的,Jupyter 会自动渲染出一个表格,则无需这个设置。
import pandas as pd
#处理数据的列标题与数据无法对齐的情况
pd.set_option('display.unicode.ambiguous_as_wide', True)
#无法对齐主要是因为列标题是中文
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_csv(r'G:\test.csv', sep=',', nrows=3, encoding='utf-8')
print(df)
对齐后的效果:
来源:https://blog.csdn.net/hubing_hust/article/details/128410816


猜你喜欢
- 让你的读者能够方便地收藏你的文章到社会化书签(网摘)网站,如 新浪,google,yahoo,Del.icio.us, 365key等添加到
- 1、就按单介绍MySQL服务器的安全基础是:用户应该对他们需要的数据具有适当的访问权,既不能多也不能少。换句话说,用户不能对过多的数据具有过
- 最近项目组同事跟我说遇到一个SQL性能问题,他说全表只有69条记录,客户端执行耗费了两分多钟,很不科学。我帮了分析出了原因并得到解决。下面小
- 使用python的numpy模块实现逻辑回归模型的代码,供大家参考,具体内容如下使用了numpy模块,pandas模块,matplotlib
- serializable 串行化(无问题)事务必须以顺序的方式执行,前一个事务提交之前后面的事务无法进行提交,最安全,但是不能并发操作,导致
- 一、根据vux文档直接安装,无需手动配置npm install vue-cli -g // 如果还没安装vue init ai
- 今天写爬虫偶然想到了初学正则表达式时候,看过一篇文章非常不错。检索一下还真的找到了。re模块re.search经常用match = re.s
- Python 提供了两个级别访问的网络服务。:低级别的网络服务支持基本的 Socket,它提供了标准的 BSD Sockets API,可以
- 本文实例讲述了Python实现统计给定字符串中重复模式最高子串功能。分享给大家供大家参考,具体如下:给定一个字符串,如何得到其中重复模式最高
- 一、乱码的原因:1、 client客户端的编码不是utf82、server端的编码不是utf83、database数据库的编码不是utf84
- Keras的.h5模型转成tensorflow的.pb格式模型,方便后期的前端部署。直接上代码from keras.models impor
- 本文实例为大家分享了Python生成树形图案的具体代码,供大家参考,具体内容如下先看一下效果,见下图。上面这颗大树是使用Python + T
- 1 使用Flask处理表单什么是表单(Form)? 表单是搜集用户数据信息的各种表单元素的集合区域。它的作用是实现用户和服务器的数据交互。通
- 本文实例讲述了Python保存最后N个元素的方法。分享给大家供大家参考,具体如下:问题:希望在迭代或是其他形式的处理过程中对最后几项记录做一
- 二维列表转一维列表from compiler.ast import flattena=[[1,2],[5,6]]print(flatten(
- 在python中使用open函数对文件进行处理。1.open()python打开文件使用open()函数,返回一个指向文件的指针。该函数常用
- 一 字典的嵌套在机器学习实战决策树部分,生成决策树时用到了字典的嵌套。>>>s1={'no surface'
- 最近看到一个内部项目的插件加载机制,非常赞。当然这里说的插件并不是指的golang原生的可以在buildmode中加载指定so文件的那种加载
- 以下面的代码为例import osos.system(“ping www.baidu.com”)在pycharm界面运行后会显示乱码,如下图
- 前言有时候在使用Python处理比较耗时操作的时候,为了便于观察处理进度,这时候就需要通过进度条将处理情况进行可视化展示,以便我们能够及时了