Python数据分析之获取双色球历史信息的方法示例
作者:levy_cui 发布时间:2022-10-05 21:16:34
标签:Python,数据分析,双色球
本文实例讲述了Python数据分析之获取双色球历史信息的方法。分享给大家供大家参考,具体如下:
每个人都有一颗中双色球大奖的心,对于技术人员来说,通过技术分析,可以增加中奖几率,现使用python语言收集历史双色球中奖信息,之后进行预测分析。
说明:采用2016年5月15日获取的双色球数据为基础进行分析,总抽奖数1940次。
初级代码,有些内容比较繁琐,有更好的代码,大家可以分享。
#!/usr/bin/python
# -*- coding:UTF-8 -*-
#coding:utf-8
#author:levycui
#date:20160513
#Description:双色球信息收集
import urllib2
from bs4 import BeautifulSoup #采用BeautifulSoup
import os
import re
#伪装成浏览器登陆,获取网页源代码
def getPage(href):
headers = {
'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
req = urllib2.Request(
url = href ,
headers = headers
)
try:
post = urllib2.urlopen(req)
except urllib2.HTTPError,e:
print e.code
print e.reason
return post.read()
#初始化url 双色球首页
url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html'
#===============================================================================
#获取url总页数
def getPageNum(url):
num =0
page = getPage(url)
soup = BeautifulSoup(page)
strong = soup.find('td',colspan='7')
# print strong
if strong:
result = strong.get_text().split(' ')
# print result
list_num = re.findall("[0-9]{1}",result[1])
# print list_num
for i in range(len(list_num)):
num = num*10 + int(list_num[i])
return num
else:
return 0
#===============================================================================
#获取每页双色球的信息
def getText(url):
for list_num in range(1,getPageNum(url)): #从第一页到第getPageNum(url)页
print list_num #打印下页码
href = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_'+str(list_num)+'.html' #调用新url链接
# for listnum in len(list_num):
page = BeautifulSoup(getPage(href))
em_list = page.find_all('em') #匹配em内容
div_list = page.find_all('td',{'align':'center'}) #匹配 <td align=center>这样的内容
#初始化n
n = 0
#将双色球数字信息写入num.txt文件
fp = open("num.txt" ,"w")
for div in em_list:
emnum1 = div.get_text()
# print emnum1
text = div.get_text()
text = text.encode('utf-8')
#print title
n=n+1
if n==7:
text = text + "\n"
n=0
else:
text = text + ","
fp.write(str(text))
fp.close()
#将日期信息写入date.txt文件
fp = open("date.txt" ,"w")
for div in div_list:
text = div.get_text().strip('')
# print text
list_num = re.findall('\d{4}-\d{2}-\d{2}',text)
list_num = str(list_num[::1])
list_num = list_num[3:13]
if len(list_num) == 0:
continue
elif len(list_num) > 1:
fp.write(str(list_num)+'\n')
fp.close()
#将num.txt和date.txt文件进行整合写入hun.txt文件中
#格式如下:
#('2016-05-03', '09,12,24,28,29,30,02')
#('2016-05-01', '06,08,13,14,22,27,10')
#('2016-04-28', '03,08,13,14,15,30,04')
#
fp01 = open("date.txt","r")
a=[]
for line01 in fp01:
a.append(line01.strip('\n'))
# print a
fp01.close()
fp02 = open("num.txt","r")
b=[]
for line02 in fp02:
b.append(line02.strip('\n'))
# print b
fp02.close()
fp = open("hun.txt" ,"a")
for cc in zip(a,b): #使用zip方法合并
print cc
fp.write(str(cc) + '\n')
fp.close()
#===============================================================================
if __name__=="__main__":
pageNum = getPageNum(url)
print pageNum
getpagetext = getText(url)
print getpagetext
数据样例:
('2015-03-03', '09,11,16,18,23,24,10')
('2015-03-01', '08,09,10,13,29,30,01')
('2015-02-26', '04,07,10,16,23,25,10')
希望本文所述对大家Python程序设计有所帮助。
来源:http://blog.csdn.net/levy_cui/article/details/51394450
0
投稿
猜你喜欢
- 工欲善其事,必先利其器。作为更专业的前端工程师,我们需要强劲的IDE协助我们写出规范、美观、漂亮的JavaScript代码,首先要作的就是对
- 个人网站如有会员注册模块+动网论坛的话,那网站要与动网论坛系统整合,实现不同Web系统之间的用户信息同步更新、登录等操作就不是件容易的事了,
- 官方网站:http://www.extjs.com/演示地址:http://www.yaohaixiao.com/effects/sampl
- 上一次,我们谈到在ASP中如何利用“正则表达式”对象来实现各种数据的校验,文中描述了正则表达式对象的强大功能,接下来,我们来看看有关“正则表
- 这篇文章主要介绍了微信小程序转发事件实现解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考
- 使用MySQL,目前你可以在三种基本数据库表格式间选择。当你创建一张表时,你可以告诉MySQL它应该对于表使用哪个表类型。MySQL将总是创
- 我的通用权限系统设计是更换权限时候尽量不要涉及到代码修改,来自chinaunix论坛,今天转过来看看。希望对大家有所帮助,对PHP100的朋
- 从业这几年,自己写过的和帮人参谋的所谓“设计规范”不少了,这个东西大概在中国的决策层眼里是这么回事儿 - 一帮农民在一块田里种粮食,起先天气
- 前言本文介绍的主要内容是 Redux-Toolkit 在 React + TypeScript 大型应用中的实践,主要解决的问题是使用 cr
- 1. 关于 try.. finally..假如上帝用 python 为每一个来到世界的生物编写程序,那么除去中间过程的种种复杂实现,最不可避
- 这里有一些很棒的自动化脚本,你可以在你的 Python 项目中使用它们。在做项目的时候,我们需要一些现成的代码来帮助我们解决日常生活中的问题
- language.xml 代码如下:<?xml version="1.0" encoding=
- csv的简单介绍CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用
- Python的优点和缺点本节内容如下:Python的优点Python的缺点使用Python的知名网站Python的优点1. 简单 Pytho
- 首先说说框架(Frameworks)这个词,框架就是为我们提供了一个平台一个运行环境,在如此统一的前提下我们做相关开发才能“有章可循”,要充
- Oracle中表的外键是保证系统参照完整性的手段,而参照完整性是指分布在两个表中的列所满足的具有主从性质的约束关系。外键涉及到两个表,其中一
- 摘要:本文主要是讲解怎么样替换某一列的一个值。应用场景:假如我们有以下的数据集:我们想把里面不是pre的字符串全部换成Nonpre,我们要怎
- 这篇文章主要介绍了Python接口自动化判断元素原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的
- 写爬虫是一项复杂、枯噪、反复的工作,考虑的问题包括采集效率、链路异常处理、数据质量(与站点编码规范关系很大)等。整理自己写一个爬虫程序,单台
- 数据库,网站运营的基础,网站生存的要素,不管是个人用户还是企业用户都非常依赖网站数据库的支持,然而很多别有用心的攻击者也同样非常&l