python读取.data文件的实现
作者:青青木屋 发布时间:2021-10-28 06:24:05
.data文件格式
.data文件是用来存储数据的一种文件格式。之前通常数据是用逗号隔开或tab健隔开的格式,现在也可能是文本文件格式或二进制文件格式。
识别.data文件里面的数据
1、先测试一下文件是文本文件还是二进制文件
用网上可以下载到的iris.data文件来举例(iris.data文件下载地址:https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data),代码如下:
# 通过python自带的文件读取文本文件
file=open('iris.data','r')
data=file.read()
print(data)
file.close()
运行之后,可以看到结果(此处放部分数据结果):
根据打印出来的数据结果,可以分析出来,iris.data存的是文本数据,并且是用逗号分隔的,也可以认为是csv文件格式。
如果打印出来的数据结果不是文本类型的话,可以测试一下是不是二进制文件,代码如下:
# 通过python自带的文件读取二进制文件
file=open('iris.data','rb')
data=file.read()
print(data)
file.close()
2、用Pandas读取.data文件
方法如下:
用read_csv()方法读取文件,这个方法会自动创建一个dataframe,将数据转换进去,代码如下:
# 使用Pandas读取数据
import pandas as pd
data=pd.read_csv('iris.data',header=None,sep=',')
print(data)
注意:在第一步里面查看文件内容的时候,发现iris.data文件里面没有表头,iris.data的表头是在iris.names文件里面进行说明的(附上iris.names文件下载地址:https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.names),所以在read_csv函数调用的时候,需要加上header=None,否则data里面的第一行就会自动变成表头,这样的话150行数据就变成149行。
运行之后,显示结果如下:
3、其他数据存储类型
除了上述提到的文件格式外,还有json格式和pickle。
在读取的时候,需要import json和import pickle后,调用json.dumps()方法和pickle.dump()方法进行读取。
参考资料
https://www.askpython.com/python/examples/read-data-files-in-python
来源:https://blog.csdn.net/greenqingqingws/article/details/128906287


猜你喜欢
- 项目编写过程中,总能遇见对字典进行排序什么的,如果要实现多条件排序只需要下面几行代码实现。充分体现了python的好处了。teamitems
- 简介:Mysql数据库按时间点恢复实战对于任何一家企业来讲,数据都是最宝贵的财富。如何保护数据完整性,数据不受损坏,在发生故障时,如何保住数
- 茎叶图from itertools import groupbynums2=[225, 232,232,245,235,245,270,22
- 1、吃金币源码分享:import osimport cfgimport sysimport pygameimport randomfrom
- 用JDBC实现对MySQL的“增删改查”:import java.sql.Connection;im
- 行业首页改版的缘故,为了让我们设计师可以更好的了解需求、了解我们的用户,和部门的用研童鞋一起讨论决定使用电话来进行用户访谈,以此来了解用户。
- MySQL 分区技术(是mysql 5.1以版本后开始用->是甲骨文mysql技术团队维护人员以插件形式插入到mysql里面的技术)1
- vue实现菜单切换,点击菜单导航切换不同的内容以及为当前点击的选项添加样式,或者组件。method里: css:html代码:&l
- Cookies,有些人喜欢它们,有些人憎恨它们。但是,很少有人真正知道如何使用它们。现在你可以成为少数人中的成员-可以自傲的Cookie 大
- 上文:栅格:一以贯之Jacci Howard Bear 的英文原文:http://desktoppub.about.com/od/grids
- 一、os模块os 模块是 Python中的一个内置模块,也是 Python中整理文件和目录最为常用的模块。该模块提供了非常丰富的方法用来处理
- 今天介绍一种基于高斯滤波和邻域随机采样,生成一种毛玻璃的图像特效,简单来说,就是先对图像做高斯滤波模糊,然后对模糊后的图像,通过对邻域的随机
- 网上有这样一道题目:一个字符串String=“adadfdfseffserfefsefseetsdg”,找出里面出现次数最多的字母和出现的次
- IP合法性校验是开发中非常常用的,看起来很简单的判断,作用确很大,写起来比较容易出错,今天我们来总结一下,看一下3种常用的IP地址合法性校验
- Python 的 openpyxl 模块可以让我们能读取和修改 Excel 文件。首先让我们先理解一些 Excel 基础概念。1 Excel
- 做运维的朋友应该知道,公司IDC机房经常有上架、下架、报修和报废的服务器。如果服务器数量很多的时候很容易造成监控遗漏。  
- 以发布目录为例:<OBJECT ID="agobjOraSession" RUNAT=&quo
- 实例1:获取星期字符串程序读入一个表示星期几的数字(1~7),输出对应的星期字符串名称。例如,输入 3,返回“星期三&a
- zip文件是我们经常使用的打包格式之一,python解压和压缩zip效率非凡。 python解压zip文档:#/usr/bin/python
- 简介Puppeteer是Google开发并开源的一款工具,可用代码驱动浏览器操作。由于诸多优秀的特性,Puppeteer常被用在爬虫与自动化