python使用pandas抽样训练数据中某个类别实例
作者:Yan456jie 发布时间:2021-03-02 02:56:14
标签:python,pandas,训练,数据类别
废话真的一句也不想多说,直接看代码吧!
# -*- coding: utf-8 -*-
import numpy
from sklearn import metrics
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import MultinomialNB
from sklearn import linear_model
from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn import cross_validation
from sklearn import preprocessing
import scipy as sp
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectKBest ,chi2
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
#import iris_data
'''
creativeID,userID,positionID,clickTime,conversionTime,connectionType,
telecomsOperator,appPlatform,sitesetID,positionType,age,gender,
education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label
'''
def test():
df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",")
df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID",
"positionType","age","gender","education","marriageStatus",
"haveBaby","hometown","residence","appCategory","label"]]
print df1["label"].value_counts()
N_data = df1[df1["label"]==0]
P_data = df1[df1["label"]==1]
N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0)
#print df1.loc[:,"label"]==0
print P_data.shape
print N_data.shape
data = pd.concat([N_data,P_data])
print data.shape
data = data.sample(frac=1).reset_index(drop=True)
print data[["label"]]
return
补充拓展:pandas实现对dataframe抽样
随机抽样
import pandas as pd
#对dataframe随机抽取2000个样本
pd.sample(df, n=2000)
分层抽样
利用sklean中的函数灵活进行抽样
from sklearn.model_selection import train_test_split
#y是在X中的某一个属性列
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)
来源:https://blog.csdn.net/Yan456jie/article/details/72239395
0
投稿
猜你喜欢
- 一、切换到Oracle用户su – oracle二、登录到sys用户sqlplus / as sysdba三、创建临时表空间//查询临时表空
- 平面设计 常用尺寸 三折页广告 标准尺寸: (A4)210mm x 285mm普通宣传册 标准尺寸: (A4)210mm x 285mm文件
- 从MySQL 5.0 开始,支持了一个全新的SQL句法:PREPARE stmt_name FROM preparable_stmt;EXE
- <% SoFia_DbName="jiaoyou&qu
- 前言大家在使用pymysql的时候,通过fetchall()或fetchone()可以获得查询结果,但这个返回数据是不包含字段信息的(不如p
- 给定一个字符串,如何得到其中重复模式最高的子字符串,我采用的方法是使用滑窗机制,对给定的字符串切分,窗口的大小从1增加到字符串长度减1,将所
- 在数组中搜索一个特定值,如果找到返回TRUE否则返回FALSE boolean in_array(mixed needle,array ha
- 一、简介我们在这里采用Python中的matplotlib来实现曲线图形的绘制。matplotlib是著名的python绘图库,它提供了一整
- 目录文件读写读文件写文件StringIO和BytesIOStringIOBytesIO操作文件和目录环境变量操作文件和目录文件读写读文件tr
- CSS 文件的大小和所引起的 HTTP 的请求数是 CSS 性能的最关键因素回流(reflow)和渲染时间(非常!)没那么重要副本(dupl
- 如何随机显示图片计数器?一切就绪,看看我们的代码:count.asp< html >< head >
- 表单在网页中主要负责数据采集功能。一个表单有三个基本组成部分: 表单标签:这里面包含了处理表单数据所用CGI程序的URL以及数
- 如下所示:'''Created on 2018-4-20例子:每天凌晨3点执行func方法''
- 应该是很方便的了,支持几乎所有主流浏览器(ie5,6,7,8;ff;傲游;Opera)已更新至可提交录入内容<script type=
- 看书笔记db file scattered read DB ,db file sequential read DB,free buffer
- 论坛有人问起如何获取读取CSS属性值,就写了下面这段兼容各浏览器的获取HTML元素的css属性值函数:function getSt
- 用wdcp官方提供的脚本安装lnamp环境,安装请参考:http://www.wdlinux.cn/bbs/thread-6292-1-1.
- 在利用QT编写GUI程序时经常需要一些交互操作,常见的有鼠标事件、键盘事件等。今天我们要实现的是在label中已经显示的图像中绘制矩形框,以
- pycharm右键新建时会有目录(文件夹)和python package两个选项,这两个到底有什么不同呢1.原来在python模块的每一个包
- 原文地址https://www.codementor.io/python/tutorial/advanced-use-python-deco