位置：首页>> 网络编程>> Python编程>> python使用pandas抽样训练数据中某个类别实例

python使用pandas抽样训练数据中某个类别实例

作者：Yan456jie　　发布时间：2021-03-02 02:56:14　

标签：python,pandas,训练,数据类别

废话真的一句也不想多说，直接看代码吧！

# -*- coding: utf-8 -*-

import numpy
from sklearn import metrics
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import MultinomialNB
from sklearn import linear_model
from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn import cross_validation
from sklearn import preprocessing
import scipy as sp
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectKBest ,chi2
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
#import iris_data

'''
creativeID,userID,positionID,clickTime,conversionTime,connectionType,
telecomsOperator,appPlatform,sitesetID,positionType,age,gender,
education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label
'''

def test():
df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",")
df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID",
"positionType","age","gender","education","marriageStatus",
"haveBaby","hometown","residence","appCategory","label"]]
print df1["label"].value_counts()
N_data = df1[df1["label"]==0]
P_data = df1[df1["label"]==1]
N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0)
#print df1.loc[:,"label"]==0
print P_data.shape
print N_data.shape

data = pd.concat([N_data,P_data])
print data.shape
data = data.sample(frac=1).reset_index(drop=True)
print data[["label"]]
return

补充拓展：pandas实现对dataframe抽样

随机抽样

import pandas as pd
#对dataframe随机抽取2000个样本
pd.sample(df, n=2000)

分层抽样

利用sklean中的函数灵活进行抽样

from sklearn.model_selection import train_test_split
#y是在X中的某一个属性列
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)

来源：https://blog.csdn.net/Yan456jie/article/details/72239395

0

投稿

猜你喜欢

JS实现获取数组中最大值或最小值功能示例
本文实例讲述了JS实现获取数组中最大值或最小值功能。分享给大家供大家参考，具体如下：方法一：//最小值Array.prototype.min
总结python 三种常见的内存泄漏场景
概要不要以为 Python 有自动垃圾回收就不会内存泄漏，本着它有“垃圾回收”我有“垃圾代码”的精神，现在总结一下三种常见的内存泄漏场景。无
EXEC(EXECUTE)函数访问INSERTED或DELETED的内部临时触发表
刚开始时，这个表的字段很少（10个以内），前开发者把这个表的所有存储过程与触发器以及表函数全是写死了。用户每添加一些字段，都需要手动去更改这
PHP实现获取客户端IP并获取IP信息
代码很简洁，功能很实用，这里就不多废话了，直接奉上：<?php/** * 获取客户端IP * @param&nbs
3个适合新手练习的python小游戏
学Python之前我们先来几个简单的小游戏练练手，这三个小游戏一个比一个复杂，建议新手慢慢来：1.猜拳import random
Android ProgressBar进度条和ProgressDialog进度框的展示DEMO
在做手机开发时，经常碰到一些比较耗时的操作，这个时候进度条就开始派上用场了。这个demo展示了ProgressBar进度条和Progress
Discuz!NT 论坛整合ASP程序论坛教程
代码如下:登陆时记录cookies页面代码 <!--#include file="md5.asp"--&
Python Learning 列表的更多操作及示例代码
遍历列表-for循环列表中存储的元素可能非常多，如果想一个一个的访问列表中的元素，可能是一件十分头疼的事。那有没有什么好的办法呢？当然有！使
快速掌握如何使用SQL Server来过滤数据
我们知道，关系型数据一般以规范化的形式保存，也就是说你应该尽可能少地重复数据；在正常情况下，表与表之间仅通过各种键值实现关联。进一步地讲，规
解决selenium模块利用performance获取network日志请求报错的问题(亲测有效)
已解决selenium模块利用performance获取network日志请求，抛出异常selenium.common.exceptions
ASP编程入门进阶（十四）：Browser & Linkin
一、Browser Capabilities组件该组件最主要的作用是：提取识别客户端浏览器的版本信息。其原理是这样的：当客户端浏览器向服务
MS IIS server Frontpage Ext Server漏洞
描述微软开发的两个动态库存在后门允许用户查看ASP文件源程序和下载整个网站详细随IIS和Frontpage Extention server
python包合集shutil示例代码详解
一、简介shutil是 python 中的高级文件操作模块，与os模块形成互补的关系，os主要提供了文件或文件夹的新建、删除、查看等方法，还
pytorch之添加BN的实现
pytorch之添加BN层批标准化模型训练并不容易，特别是一些非常复杂的模型，并不能非常好的训练得到收敛的结果，所以对数据增加一些预处理，同
使用sql语句创建和删除约束示例代码
使用sql语句创建和删除约束约束类型主键约束（Primary Key constraint） --：要求主键列数据唯一，并且不允许为空。
一文掌握MySQL表的创建和约束
一、数据库的建立和销毁建立数据库：create database [if not exists] 数据库名 [default charset
python单向循环链表实例详解
使用python实现单向循环链表，供大家参考，具体内容如下单向循环链表将所有的链接在一起，每一个节点分为数据存储区和链接区，数据区存储数据，
详解python中xlrd包的安装与处理Excel表格
一、安装xlrd地址下载后，使用 pip install .whl 安装即好。查看帮助：>>> import xlrd&g
Go channel结构体源码和读写和关闭过程详解
简而言之，channel维护了一个带指针的接受和发送的队列,其中包含mutex锁保证并发安全，数据类型，元素个数，元素大小，channel状
JavaScript 颜色梯度和渐变效果
很久没写blog，太忙了。没什么时间写复杂的东西，重新把颜色渐变效果写一遍。关于颜色的效果一般就两个，颜色梯度变化和样式的颜色渐变，前者在i

python调用百度语音REST API

python性能检测工具函数运行内存及运行时间

TensorFlow Autodiff自动微分详解

有关wxpython pyqt内存占用问题分析

django3.02模板中的超链接配置实例代码

python爬虫使用requests发送post请求示例详解

Python导入自定义路径的方法

python super()函数的基本使用

PyTorch CUDA环境配置及安装的步骤(图文教程)

浅谈Python的正则表达式

MAC如何固定桌面排列?MAC固定桌面排列技巧

Java实现LeetCode（54.螺旋矩阵）

Win10无法搜索到共享计算机怎么办？Win10无法搜索到共享计算机的解决办法

深入理解 Java、Kotlin、Go 的线程和协程

鬼泣-巅峰之战13章月光镜怎么通关

仙境传说RO熊本熊大冒险活动有哪些福利？熊本熊大冒险活动详情及福利一览

以闪亮之名捏脸数据在哪导入

提灯与地下城巨心怎么获得

LOL云顶之弈6贵族2骑士阵容怎么搭配？6贵族2骑士玩法思路解析

我的起源1506年怎么去？我的起源1506年进入方法攻略

手机版 网络编程 asp之家 www.aspxhome.com