python验证码识别的实例详解
作者:daisy 发布时间:2021-05-28 14:59:51
标签:python,验证码,识别,ocr
其实关于验证码识别涉及很多方面的内容,入手难度大,但是入手后,可拓展性又非常广泛,可玩性极强,成就感也很足,对这感兴趣的朋友们下面跟着小编一起来学习学习吧。
依赖
sudo apt-get install python-imaging
sudo apt-get install tesseract-ocr
pip install pytesseract
利用google ocr来识别验证码
from PIL import Image
import pytesseract
image = Image.open('v1.jpg')
vcode = pytesseract.image_to_string(image)
print vcode
但是pytesseract
本身识别率不高,而且一般网站的验证码都带有大量干扰元素。( ̄▽ ̄)"
所以我们首先要对验证码进行去噪。
对于单像素干扰线、干扰点我们可以通过扫描整个图像,考察每一个像素点所临近的八个像素点的颜色,如果不同的个数大于一定的值,那就说明该点是离散点,需要去除。
另外也可以尝试设定阈值来直接将验证码二值化。
下面是两张学校网站上的验证码
我们可以看到验证码存在单像素干扰点,所以我们需要设法去除。但是经过反复刷新验证码,发现这个验证码
1. 只有加法运算
2.至多两位数的加法
3.文字部分一定是红色(255,0,0)
有了上述的信息,可以判断这个验证码的生成算法是有缺陷的
import Image
from numpy import *
import pytesseract
im = Image.open('1.png')
im = im.convert('RGB')
#拉长图像,方便识别。
im = im.resize((200,80))
a = array(im)
for i in xrange(len(a)):
for j in xrange(len(a[i])):
if a[i][j][0] == 255:
a[i][j]=[0,0,0]
else:
a[i][j]=[255,255,255]
im = Image.fromarray(a)
im.show()
vcode = pytesseract.image_to_string(im)
print vcode
利用上述脚本我们可以将图像进行二值化,利用google ocr进行识别。再通过eval()
来对表达式进行求值。
总结
python验证码识别的内容到这就基本介绍了,希望这篇文章对大家的学习或者工作能有所帮助,如果有疑问大家可以留言交流。
0
投稿
猜你喜欢
- 目录1. python内置方法(read、readline、readlines)2. 内置模块(csv)3. 使用numpy库(loadtx
- 记录:256写SQL最高境界:SELECT * FROM 表名。当然这是一句自嘲。探究一下SQL语句中JOIN的用法,直到经历这个场景,变得
- 前言又见面了,小伙伴儿们,发现最近大家喜欢看一些简单的小案例?!咳咳,下面进入正题。每个人的电脑里都会有不想让别人知道的隐私,或者是上班时间
- 今天突然想起这个问题, 就好好搜索整理一下,不过在开始归纳之前,请先来一起做做这个小实验:忽略一切实际的外在情况, 你看了下面的按钮,第一本
- declare @t varchar(255),@c varchar(255)declare table_cursor cursor for
- 首先水仙花数是什么?水仙花数(Narcissistic number)也被称为超完全数字不变数(pluperfect digital inv
- 本文实例讲述了PHP学习记录之面向对象(Object-oriented programming,OOP)基础。分享给大家供大家参考,具体如下
- 目录前言map 并发操作出现问题sync.Map 解决并发操作问题计算 map 长度计算 sync.Map 长度前言在 Golang 中 m
- 前言在使用爬虫的时候,很多网站都有一定的反爬措施,甚至在爬取大量的数据或者频繁地访问该网站多次时还可能面临ip被禁,所以这个时候我们通常就可
- 一、项目展示项目是一个简单实用的二维码生成器。使用者可以在生成器中输入文字生成二维码,也可以在识别器中识别二维码的内容二、项目核心代码二维码
- 本文实例为大家分享了OpenCV实现直线检测的具体代码,供大家参考,具体内容如下1 介绍本文主要介绍OpenCV自带的直线检测函数Hough
- js的成员和方法好象没有private和public之分,列一下public的成员和方法成员:name 控件的名字,既这个控件的变量名(必选
- 两种方式以及效果:方式一,使用PIL.Image.blend方式:from PIL import Image, ImageDrawim =
- Unittest1.环境Unittest为Python内嵌的测试框架,不需要特殊配置,仅需要在File---settings---Tools
- 在python-numpy使用中,可以用双层 for循环对数组元素进行访问,也可以切片成每一行后进行一维数组的遍历。代码如下:import
- WordPress 页面模板是特定的模板文件,用于特定页面或页面组,这些用于单页数据的模板显示在前端。我们还可以在 WordPre
- 在一些网页应用中,就比如在投票系统中,当我们进行的是多项投票时,我们要求用户最多只能选择几项进行投票,这也是就是说选择复选框的个数最多几个.
- 什么是探索性数据分析(EDA)?EDA 是数据分析下的一种现象,用于更好地理解数据方面,例如: – 数据的主要
- server:#coding=utf-8from BaseHTTPServer import BaseHTTPRequestHandleri
- 这篇文章主要介绍了python可视化text()函数使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需