浅谈pytorch中为什么要用 zero_grad() 将梯度清零
作者:小小鼠标0 发布时间:2022-10-02 11:24:18
pytorch中为什么要用 zero_grad() 将梯度清零
调用backward()函数之前都要将梯度清零,因为如果梯度不清零,pytorch中会将上次计算的梯度和本次计算的梯度累加。
这样逻辑的好处是,当我们的硬件限制不能使用更大的bachsize时,使用多次计算较小的bachsize的梯度平均值来代替,更方便,坏处当然是每次都要清零梯度。
optimizer.zero_grad()
output = net(input)
loss = loss_f(output, target)
loss.backward()
补充:Pytorch 为什么每一轮batch需要设置optimizer.zero_grad
CSDN上有人写过原因,但是其实写得繁琐了。
根据pytorch中的backward()函数的计算,当网络参量进行反馈时,梯度是被积累的而不是被替换掉;但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积,因此这里就需要每个batch设置一遍zero_grad 了。
其实这里还可以补充的一点是,如果不是每一个batch就清除掉原有的梯度,而是比如说两个batch再清除掉梯度,这是一种变相提高batch_size的方法,对于计算机硬件不行,但是batch_size可能需要设高的领域比较适合,比如目标检测模型的训练。
关于这一点可以参考这里
关于backward()的计算可以参考这里
补充:pytorch 踩坑笔记之w.grad.data.zero_()
在使用pytorch实现多项线性回归中,在grad更新时,每一次运算后都需要将上一次的梯度记录清空,运用如下方法:
w.grad.data.zero_()
b.grad.data.zero_()
但是,运行程序就会报如下错误:
报错,grad没有data这个属性,
原因是,在系统将w的grad值初始化为none,第一次求梯度计算是在none值上进行报错,自然会没有data属性
修改方法:添加一个判断语句,从第二次循环开始执行求导运算
for i in range(100):
y_pred = multi_linear(x_train)
loss = getloss(y_pred,y_train)
if i != 0:
w.grad.data.zero_()
b.grad.data.zero_()
loss.backward()
w.data = w.data - 0.001 * w.grad.data
b.data = b.data - 0.001 * b.grad.data
来源:https://blog.csdn.net/u011959041/article/details/102760868


猜你喜欢
- 本文实例讲述了Python使用minidom读写xml的方法。分享给大家供大家参考。具体分析如下:一 python提供的xml支持2种工业标
- 整理自慕课笔记基础表单表单主要功能是用来与用户做交流的一个网页控件,良好的表单设计能够让网页与用户更好的沟通。表单中常见的元素主要包括:文本
- 国内站点经常使用的一些 CDN 静态资源公共库加速服务web开发人员们的福利来了。。旨在为大家提供更快很多其它更好的静态资源库的CDN载入库
- 创建表&创建索引create table tbl1 (id int unique, sname varchar(50),index
- 1、我的第一个个人主页一打开就是一张很眩的图片,图片上有个“进入”,点击后才算真正看到我的主页。现在回想起来那个时候这样做,大概是很想迅速展
- SQL Server正常连接时,若不需要远程操控其他电脑,可以用Windows身份验证模式,但是涉及到远程处理时,需要通过SQL Serve
- pytorch定义新的自动求导函数在pytorch中想自定义求导函数,通过实现torch.autograd.Function并重写forwa
- JS脚本语言的基础语法:输出语法 alert("警告!"); confirm("确定吗
- 本文实例讲述了php+mysqli数据库连接的两种方式。分享给大家供大家参考。具体如下:这里讲述mysqli数据库连接两种方式比较,即面向对
- 前言有些人看到这个问题觉得不是问题,是嘛,不就是df.col[]函数嘛,其实忽略了一个重点,那就是我们要省去把csv文件全部读取这个过程,因
- 在网上看到python做图像识别的相关文章后,真心感觉python的功能实在太强大,因此将这些文章总结一下,建立一下自己的知识体系。当然了,
- 前序1、cookie介绍Cookie是一段不超过4KB的小型文本数据,保存在客户端浏览器中,由一个名称(Name)、一个值(Value)和其
- 一、安装redis:1.下载:wget http://download.redis.io/releases/redis-3.2.8.tar.
- 一.引言先看获取到的效果拍摄时间:2021:12:18 16:22:13照片拍摄地址:('内蒙古自治区包头市昆都仑区', &
- 本文实例为大家分享了Virginia无密钥解密的具体代码,供大家参考,具体内容如下加密virginia加密是一种多表替换加密方法,通过这种方
- 在《javascript设计模式》中对这种方法作了比较详细的描述,实现方法的链式调用,只须让在原型中定义的方法都返回调用这些方法的实例对象的
- 让Python提速超过40倍的神器:Cython人工智能最火的语言,自然是被誉为迄今为止最容易使用的代码之一的Python。Python代码
- 打算学习linux和考一下认证。学习HCIA-AI实验手册发现的小问题和记录贴,防止自己忘。我不知道这个手册是不是公开的,你们自己去华为下载
- 实时读取logstash日志,有异常错误keywork即触发报警。# /usr/bin/env python3# -*- coding: u
- PHP 异常处理异常用于在指定的错误发生时改变脚本的正常流程。异常是什么异常处理用于在指定的错误(异常)情况发生时改变脚本的正常流程。这种情