python 读取以空格分开的文件操作
作者:jingxian 发布时间:2022-09-08 05:33:21
在查找数据集的时候发现,并不是所有的数据集都是以csv的格式存储,也就是每一列特征数据的分割并不是都以逗号分割,有的数据格式是以空格为分割
例如.data格式,
接下来就实现对.data格式数据的读取:
(数据来源于Boston房价预测数据集,文件名称为“housing.data”)
import pandas as pd
data = pd.read_csv('./housing.data', delim_whiteshape=True)
以上代码就是实现了对空格的分割,但是不知道针对也是以一列存储,并且数据分割也是空格的csv文件此方法还行得通不。
另外pd.read_csv()中的参数sep和delimiter表示的意义一样,具体如何使用不清楚,目前用到不多。
遇到读取文件不知如何操作的,最后要访问下官方文档或者google查询。
pd.read_csv官方文档
另外,可以直接在原数据集文件加后缀名.csv即可转换成csv文件,但前提是data中的数据已经以,分割好了。
pd.read_csv()中读取文件时,默认第一行作为列名,但有时候第一行也是我们需要的数据,这时需制定参数header=None,或者给每列提前设置好名字,names=[‘column0',‘column1',…]
补充:python 实现以空格分隔的文件读写及二维数组按列折半查找
最近文件读写的工作比较多,每一次读文件都会写单独的函数来适应文件格式,所以写了一个类对文件进行操作。
(用pandas.read_csv读取文件更好用)
import os
class DealData:
# 数据加载函数
def load(self, filename):
data = []
file = open(filename, 'r')
for line in file.readlines():
line = line.strip('\n') # 除去换行
line = line.split(' ') # 文件以“ ”分隔
if "" in line: # 解决每行结尾有空格的问题
line.remove("")
data.append(line)
file.close()
return data
# 折半查找 # array是一个二维数组,函数实现的功能是按照array的第lie列折半查找
def search(self, array, lie, target):
low = 0
high = len(array) - 1
while array[low][lie] <= array[high][lie]:
mid = int((low + high) / 2)
midval = array[mid][lie]
if midval < target:
low = mid + 1
elif midval > target:
high = mid - 1
if high < 0 or low >= len(array):
break
return high
# 将数据保存到文件
def save(self, data, filename):
file = open(filename, 'w')
for i in range(0, len(data), 1):
for k in range(0, len(data[i]), 1):
file.write(str(data[i][k]))
file.write(" ")
file.write("\n")
file.close()
可以将Dealdata类单独创建一个python文件,命名为Dealdata,调用方法如下:
from DealData import DealData
deal = DealData()
totaldata = deal.load("E:\low_data.txt")
之前先引用类:from Dealdata import Dealdata, 其中第一个Dealdata为被调用的python文件名, 第二个Dealdata为被调用的类名。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。
来源:https://blog.csdn.net/weixin_44778883/article/details/90051029


猜你喜欢
- 微软的SQL Server 2005中用来替代数据传输服务(DTS)的SQL Server综合服务(SSIS),包含了很多工具用于导入数据并
- MyISAM类型的表强调的是性能,其执行数度比InnoDB类型更快,但是不提供事务支持,而InnoDB提供事务支持已经外部键等高级数据库功能
- 使用PyTorch进行训练和测试时一定注意要把实例化的model指定train/eval,eval()时,框架会自动把BN和DropOut固
- 选择排序选择排序(selection sort)是一种原地(in-place)排序算法,适用于数据量较少的情况。由于选择操作是基于
- 下面写一个给大家做参考啊 create procedure sp_find(pfind varchar(500) BEGIN DECLAR
- 文字向下滾動,逐渐隐藏效果~ 挺好的 <!DOCTYPE html PUBLIC "-//W3C//DTD XHT
- MySQL中concat函数 使用方法:CONCAT(str1,str2,…)返回结果为连接参数产生的字符串。如有任何一个参数为NULL ,
- 1. 使用.logfile 方法#!/usr/bin/env pythonimport pexpectimport syshost=&quo
- SQL Server创建临时表:创建临时表 方法一: &n
- Oracle :NvlNVL函数:NVL函数是将NULL值的字段转换成默认字段输出。NVL(expr1,expr2)expr1,需要转换的字
- 在Netbeans中由于使用了Swing进行开发,所以其中界面的字体也是由Java虚拟机进行配置而不是随操作系统的。在安装完Netbeans
- 昨天解决完数据库跨权限操作后,今天打开项目突然报错了,然后重启数据库时,报 ERROR! MySQL server PID file cou
- 1. auth介绍Django 自带一个用户验证系统。它负责处理用户账号、组、权限和基于cookie的用户会话。认证系统由以下部分
- 1. 云开发简介由于小程序本身存储数据的能力有限,所以不可能将大量的数据保存在客户端,而且将数据保存在本地既不安全,也无法与其他小程序用户共
- 这不是什么原创,是我跟据OReilly.JavaScript.The.Definitive.Guide.5th.Edition.Aug.20
- 一个ASP文件通常包含HTML标签,有时和一个HTML文件非常类似。然而,ASP文件(除了包含HTML标签外),还可以包括服务器的脚本程序,
- 目录一、路由配置二、vue页面嵌套三、嵌套联系一、路由配置const routes = [ { pat
- 今天的问题是请问以下 alert 弹出值分别是什么?var f = function f2()&nb
- 1.将 JSON 转换为 CSVimport jsonif __name__ == '__main__': &
- 多表连接的基本语法多表连接,就是将几张表拼接为一张表,然后进行查询select 字段1, 字段2, ...from 表1 {inner|li