位置：首页>> 网络编程>> Python编程>> python 划分数据集为训练集和测试集的方法

python 划分数据集为训练集和测试集的方法

作者：心雨心辰　　发布时间：2023-01-10 12:18:36　

标签：python,数据集,训练集,测试集

sklearn的cross_validation包中含有将数据集按照一定的比例，随机划分为训练集和测试集的函数train_test_split

from sklearn.cross_validation import train_test_split
#x为数据集的feature熟悉，y为label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

得到的x_train,y_train（x_test,y_test）的index对应的是x,y中被抽取到的序号。

若train_test_split传入的是带有label的数据，则如下代码：

from sklearn.cross_validation import train_test_split
#dat为数据集,含有feature和label.
train, test = train_test_split(dat, test_size = 0.3)

train,test含有feature和label的。

自己写了一个函数：

#X:含label的数据集：分割成训练集和测试集
#test_size:测试集占整个数据集的比例
def trainTestSplit(X,test_size=0.3):
X_num=X.shape[0]
train_index=range(X_num)
test_index=[]
test_num=int(X_num*test_size)
for i in range(test_num):
randomIndex=int(np.random.uniform(0,len(train_index)))
test_index.append(train_index[randomIndex])
del train_index[randomIndex]
#train,test的index是抽取的数据集X的序号
train=X.ix[train_index]
test=X.ix[test_index]
return train,test

来源：https://blog.csdn.net/xidianliutingting/article/details/53463033

0

投稿

猜你喜欢

用户如何有效地利用ORACLE数据字典
ORACLE的数据字典是数据库的重要组成部分之一，它随着数据库的产生而产生, 随着数据库的变化而变化, 体现为sys用户下的一些表和视图。数
Python 抓取数据存储到Redis中的操作
redis是一个key-value存储结构。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、lis
Mootools常用方法扩展（三）
继续Mootools常用方法扩展，依然还是String类的扩展。方法：unescapseHTML说明：这个上次忘了，和escapseHTML
asp 正则实现清除html文本格式的函数代码
代码如下:<％ '/* 函数名称：Zxj_ReplaceHtmlClearHtml '/
asp如何创建一个功能强大的文档管理程序？
bookheader.asp Recommended Books for <％=session(&quo
ASP使用FSO组件生成HTML静态页面
在ASP中使用FSO组件生成HTML静态页面,共有两个页面index.htm是首页.程序比较简单，主要是用了ASP里的文件操作
解决 myJSFrame 框架中 Ajax 方法一处明显的内存泄露
一直以来，每次调用Ajax方法都需要创建一次 Microsoft.XMLHTTP 对象，今天在使用Ajax技术做一个类似聊天室的
两大步骤教您开启MySQL 数据库远程登陆帐号
在工作实践和学习中，如何开启 MySQL 数据库的远程登陆帐号算是一个难点的问题，以下内容便是在工作和实践中总结出来的两大步骤，能帮助DBA
asp如何正确理解MIME类型？
如何正确理解MIME类型？mime联系介绍。序号内容类型文件扩展名描述1application/msworddocMicrosoft Wor
Python OpenCV去除字母后面的杂线操作
原图代码 src = cv2.imread("28.png") gray_src = cv2.c
兼容Firefox的点击复制js代码
这是一段点击复制的代码，现在我的页面里不仅有1个链接需要用到这段代码。请哪位好心人指教一下应该怎么用ID对应的方式来改写这段js，使它实现一
php5.3 不支持 session_register() 此函数已启用的解决方法
php从5.2.x升级到5.3.2.出来问题了。有些原来能用的程序报错了。报错内容是Deprecated: Function session
支持png透明图片的php生成缩略图类分享
注：此功能依赖GD2图形库最近要用php生成缩略图，在网上找了一下，发现了这篇文章：PHP生成图片缩略图试用了一下后，发现有这样几个问题：1
Oracle9i 动态SGA,PGA特性探索
“In the latest release 10.2 Oracle changed these default values. The m
只有mdf文件的数据库附加失败的修复方法分享(置疑、只读)
只有mdf文件的数据库附加失败的修复附加时报如下错误：服务器: 消息 1813，级别 16，状态 2，行 1 未能打开新数据库 '
asp使用shotgraph组件生成数字和字母验证码
大家经常在网上登陆的时候经常会看到让你输入验证码，有的是文字的，有的呢是图片，比如chinaren.com校友录中留言的时候，我们就会看到数
用PHP实现标准的IP Whois查询
由于Internet的历史原因，apin负责整个网络IP的整体规划以及北美区
tensorflow 重置/清除计算图的实现
调用tf.reset_default_graph()重置计算图当在搭建网络查看计算图时，如果重复运行程序会导致重定义报错。为了可以在同一个线
用户研究角度看设计（2）：用户为何视若无睹
可视性的问题几乎在每次不同产品的用户测试中都会出现：用户总是对页面的某些元素、功能视若无睹，或根本无视。基于此，对这个问题进行了一番小小的研
给在DreamWeaver编写CSS的人一些习惯建议
在DreamWeaver中编写CSS,这种编写习惯本站(twocity.cn)并不提倡,不过由于"可视化"和操作简便,使

Python3.10新特性之match语句示例详解

python3的数据类型及数据类型转换实例详解

Python自动发送和收取邮件的方法

python递归实现快速排序

python输入错误后删除的方法

用Python自动下载网站所有文件

Python中easy_install 和 pip 的安装及使用

Python实现的爬取百度文库功能示例

用 Python 脚本实现电脑唤醒后自动拍照并截屏发邮件通知

python设计模式之装饰器模式

Android开发中ImageLoder进行图片加载和缓存

Win10 Mobile build 14393.189安装与上手体验视频

Excel按照某个单元格最适合的宽度来调整列宽

MAC Lion下识别PowerPC软件的方法

那些不得不说的脚本工具，好用的脚本管理软件分享~

Win10怎样恢复已删除的默认应用？

使用ACCESS做网络版程序的四种解决方案

Win10 1803 KB5001339离线更新包更新详细内容

开心手机恢复大师通过iTunes备份恢复误删的iPhone通话记录

WPS文件怎么另存为？

手机版 网络编程 asp之家 www.aspxhome.com