软件编程
位置:首页>> 软件编程>> java编程>> Selenium+Tesseract-OCR智能识别验证码爬取网页数据的实例

Selenium+Tesseract-OCR智能识别验证码爬取网页数据的实例

作者:大数据智工厂  发布时间:2023-04-11 19:43:01 

标签:Selenium,Tesseract-OCR,验证码,爬取
目录
  • 1.项目需求描述

  • 2.整体思路

  • 3.功能实现

1.项目需求描述

通过订单号获取某系统内订单的详细数据,不需要账号密码的登录验证,但有图片验证码的动态识别,将获取到的数据存到数据库。

2.整体思路

  1.通过Selenium技术,无窗口模式打开浏览器

  2.在输入框中动态输入订单号

  3.将图片验证码截图保存到本地

  4.通过Tesseract-OCR技术去本地识别验证码转化为文字

  5.将获取的验证码输入输入框

  6.点击查询获取列表数据

3.功能实现

1.下载并安装Google浏览器,安装Google驱动chromedriver.exe,获取安装路径,配置在项目中

2.使用Selenium进行浏览器操作


System.setProperty(浏览器驱动, 浏览器驱动安装位置);
ChromeOptions options = new ChromeOptions();
options.addArguments("--headless");                            // 无窗口模式
options.addArguments("--disable-infobars");                    // 禁言消息条
options.addArguments("--disable-extensions");                  // 禁用插件
options.addArguments("--disable-gpu");                         // 禁用GPU
options.addArguments("--no-sandbox");                          // 禁用沙盒模式
options.addArguments("--disable-dev-shm-usage");
options.addArguments("--hide-scrollbars");                     // 隐藏滚动条

WebDriver driver = new ChromeDriver(options);
driver.get(爬取网站URL);
driver.manage().window().setSize(new Dimension(450, 260));     // 设置游览器打开后调整大小
try {
   // 保存IMG图片到本地
   saveImgToLocal(driver);
   Thread.sleep(2000);
   // OCR智能识别验证码
   String codeByOCR = getCodeByOCR();
   if (codeByOCR != null) {
       try {
           WebElement input1 = driver.findElement(By.id(TEXTBOX1));
           input1.sendKeys(code);
           WebElement input2 = driver.findElement(By.id(TEXTBOX2));
           input2.sendKeys(codeByOCR);
           // 获取table数据
           WebElement addButton = driver.findElement(By.id(SELECT_BUTTON));
           addButton.click();
           List<WebElement> tRCollection = driver.findElement(By.id(TABLE_ID)).findElements(By.tagName("tr"));
           for (int t = 1; t < tRCollection.size(); t++) {
               List<WebElement> tDCollection = tRCollection.get(t).findElements(By.tagName("td"));
               VipLogisticsMinHangDetailVo minHangDetailVo = new VipLogisticsMinHangDetailVo();
               minHangDetailVo.setLogistics_number(code);
               for (int i = 0; i < tDCollection.size(); i++) {
                   String text = tDCollection.get(i).getText();
                   switch (i) {
                       case 0:
                           minHangDetailVo.setTime(text);
                       case 1:
                           minHangDetailVo.setOutlet(text);
                       case 2:
                           minHangDetailVo.setOrganization(text);
                       case 3:
                           minHangDetailVo.setEvent(text);
                       case 4:
                           minHangDetailVo.setDetail(text);
                   }
               }
               list.add(minHangDetailVo);
           }
           log.info("验证码识别成功!");
       } catch (Exception e) {
           if (e.toString().contains("错误提示:验证码错误或已过期!")) {
               log.error("验证码识别错误!" + e.toString());
           } else if (e.toString().contains("错误提示:请输入验证码!")) {
               log.error("未输入验证码!:" + e.toString());
           } else {
               log.error("其他异常:" + e.toString());
           }
       }
   }
   driver.quit();
} catch (Exception e) {
   e.printStackTrace();
}

3.将图片验证码截图保存到本地(截屏法)


private void saveImgToLocal(WebDriver driver) {
   WebElement element = driver.findElement(By.id(img元素ID));
   //创建全屏截图
   WrapsDriver wrapsDriver = (WrapsDriver) element;
   File screen = ((TakesScreenshot) wrapsDriver.getWrappedDriver()).getScreenshotAs(OutputType.FILE);
   try {
       BufferedImage image = ImageIO.read(screen);
       //创建一个矩形使用上面的高度,和宽度
       Point p = element.getLocation();
       //元素坐标
       BufferedImage img = image.getSubimage(p.getX(), p.getY(), element.getSize().getWidth(), element.getSize().getHeight());
       ImageIO.write(img, "png", screen);

FileUtils.copyFile(screen, new File(保存本地地址 + "imgname.png"));
   } catch (IOException e) {
       e.printStackTrace();
   }
}

4.将图片验证码保存到本地(鼠标法)


private static void saveImgToLocal1(WebDriver driver) {
   Actions action = new Actions(driver);
   action.contextClick(driver.findElement(By.id(img元素ID))).build().perform();
   try {
       Robot robot = new Robot();
       Thread.sleep(1000);

robot.keyPress(KeyEvent.VK_DOWN);
       Thread.sleep(1000);

robot.keyPress(KeyEvent.VK_DOWN);
       Thread.sleep(1000);

robot.keyPress(KeyEvent.VK_ENTER);
       Thread.sleep(1000);
       //释放向下键,不然在此之前的条目将起作用
       robot.keyRelease(KeyEvent.VK_DOWN);
       Thread.sleep(1000);
       //运行保存
       Runtime.getRuntime().exec(SAVE_IMG_EXE);
       Thread.sleep(10000);
   } catch (Exception e) {
       e.printStackTrace();
   }
}

5.对本地验证码进行OCR识别


private String getCodeByOCR() {
   String result = null;
   File file = new File(本地图片地址);
   if (!file.exists()) {
       if (systemFalg != 1) {
           file.setWritable(true, false);
       }
       file.mkdirs();
   }
   File imageFile = new File(本地图片地址 + "imgname.png");
   if (imageFile.exists()) {
       ITesseract instance = new Tesseract();
       instance.setDatapath(tessdata存放地址);
       try {
           String doOCR = instance.doOCR(imageFile);
           result = replaceBlank(doOCR);
           log.info("解析的验证码为:{}", result != null ? result : "为空!");
       } catch (Exception e) {
           e.printStackTrace();
           log.error("解析验证码异常!");
       }
   } else {
       log.error("解析验证码的文件不存在!");
   }
   return result;
}

综上,该网页的数据就可以获取了。

来源:https://www.cnblogs.com/zhaohadoopone/p/15338813.html

0
投稿

猜你喜欢

  • 前言传统的Spring做法是使用.xml文件来对bean进行注入或者是配置aop、事物,这么做有两个缺点:1、如果所有的内容都配置在.xml
  • 最近部分采用了TDD的方法来开发一个模块,小有收获特此总结一下:1. TDD的基本原则TDD的最核心思想就是先明确需求,且用代码的方式量化,
  • 前序(先序)遍历中序遍历后续遍历层序遍历如图二叉树:二叉树结点结构public class TreeNode {  int val
  • 一、前言使用动态配置的原因: properties 和 yaml 是写到项目中的,好多时候有些配置需要修改,每次修改就要重新启动项目,不仅增
  • 本文实例讲述了C#接口在派生类和外部类中的调用方法。分享给大家供大家参考,具体如下:C#的接口通过interface关键字进行创建,在接口中
  • 今天深度学习一下《Java并发编程的艺术》的第1章并发编程的挑战,深入理解Java多线程,看看多线程中的坑。注意,哈肯的程序员读书笔记并不是
  • 导读本文主体为单项链表和双向链表的反转以及简单的测试,以便于理解链表相关的算法题目。链表特点便于增删数据,不便于寻址在内存中属于跳转结构单链
  • (1)自定义泛型链表类。public class GenericList<T>    { 
  • 题目一(有关传值调用与非法访问)请问运行Test 函数会有什么样的结果?答 :程序运行会崩溃 ! 且存在内存泄漏 ;原因:1.str传给p的
  • 本文实例讲述了C#实现发送邮件的三种方法。分享给大家供大家参考。具体方法分析如下:一、问题:最近公司由于一个R&I项目的需要,用户要
  • 一、概述定义一个值类型,其中包含固定值集合。枚举类型变量可以是此集合中的任意一个或多个值。枚举使用enum关键字来声明,与类同级。枚举本身可
  • 因为公司业务需求,需要在Windows系统下调用摄像头识别二维码需求,就有了这个功能。我根据网上网友提供的一些资料,自己整合应用到项目中,效
  • 同样该功能需要加载命名空间using System.Runtime.InteropServices;private const uint W
  • 前言飞行棋小游戏是学习C#以来,接触的第一个游戏项目,根据小杨老师的思路引导,自己的代码也实现了功能,经过思路的梳理,试着不借助代码自己去实
  • 一、前言今天实现一个时钟工具,其实在之前已经完成了一个简单的时钟工具:【Unity3D应用案例系列】时钟、钟表小组件开发。那么,今天的这个小
  • Java8对于LocalDateTime的序列化和反序列化这里以jackjson为例配置反序列化工具/** * 时间戳反序列化时间 * *
  • 一、在学习枚举之前,首先来听听枚举的优点。1、枚举能够使代码更加清晰,它允许使用描述性的名称表示整数值。2、枚举使代码更易于维护,有助于确保
  • 茫茫人海千千万万,感谢这一秒你看到这里。希望我的能对你的有所帮助!共勉!愿你在未来的日子,保持热爱,奔赴山海!Java基础知识(多态)多态因
  • ??Chip监听选中状态的监听:setOnCheckedChangeListener,该监听只有设置了checkable 属性为true或者
  •     项目中有这样一个需求,网页上上传了一个视频,需要获取此视频的时长、大小,把这两个数据返回给前
手机版 软件编程 asp之家 www.aspxhome.com