 <?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh">
	<id>https://gezhi.wiki/index.php?action=history&amp;feed=atom&amp;title=%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95</id>
	<title>梯度下降法 - 版本历史</title>
	<link rel="self" type="application/atom+xml" href="https://gezhi.wiki/index.php?action=history&amp;feed=atom&amp;title=%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95"/>
	<link rel="alternate" type="text/html" href="https://gezhi.wiki/index.php?title=%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95&amp;action=history"/>
	<updated>2026-04-18T13:16:14Z</updated>
	<subtitle>本wiki上该页面的版本历史</subtitle>
	<generator>MediaWiki 1.39.2</generator>
	<entry>
		<id>https://gezhi.wiki/index.php?title=%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95&amp;diff=29&amp;oldid=prev</id>
		<title>2023年4月17日 (一) 04:45 Gezhikaiwu</title>
		<link rel="alternate" type="text/html" href="https://gezhi.wiki/index.php?title=%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95&amp;diff=29&amp;oldid=prev"/>
		<updated>2023-04-17T04:45:06Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;zh&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;←上一版本&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;2023年4月17日 (一) 12:45的版本&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l10&quot;&gt;第10行：&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;第10行：&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;math&amp;gt;\boldsymbol{x}_{k+1} = \boldsymbol{x}_k - \alpha \nabla f(\boldsymbol{x}_k)&amp;lt;/math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;math&amp;gt;\boldsymbol{x}_{k+1} = \boldsymbol{x}_k - \alpha \nabla f(\boldsymbol{x}_k)&amp;lt;/math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt; 其中，&amp;lt;math&amp;gt;\boldsymbol{x}_k&amp;lt;/math&amp;gt;​ 是第 &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; 次迭代的参数值，&amp;lt;math&amp;gt;\nabla f(\boldsymbol{x}_k)&amp;lt;/math&amp;gt;是目标函数在 &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;xk&lt;/del&gt;&amp;lt;math&amp;gt;\boldsymbol{x}_k&amp;lt;/math&amp;gt;​ 处的梯度，&amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt; 是学习率，用于控制迭代步长。梯度下降法通过不断迭代更新参数，直到满足收敛条件或达到最大迭代次数。&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt; 其中，&amp;lt;math&amp;gt;\boldsymbol{x}_k&amp;lt;/math&amp;gt;​ 是第 &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; 次迭代的参数值，&amp;lt;math&amp;gt;\nabla f(\boldsymbol{x}_k)&amp;lt;/math&amp;gt;是目标函数在 &amp;lt;math&amp;gt;\boldsymbol{x}_k&amp;lt;/math&amp;gt;​ 处的梯度，&amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt; 是学习率，用于控制迭代步长。梯度下降法通过不断迭代更新参数，直到满足收敛条件或达到最大迭代次数。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;== 变种 ==&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;== 变种 ==&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key wiki_gezhi:diff::1.12:old-26:rev-29 --&gt;
&lt;/table&gt;</summary>
		<author><name>Gezhikaiwu</name></author>
	</entry>
	<entry>
		<id>https://gezhi.wiki/index.php?title=%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95&amp;diff=26&amp;oldid=prev</id>
		<title>Gezhikaiwu：​添加梯度下降法页面</title>
		<link rel="alternate" type="text/html" href="https://gezhi.wiki/index.php?title=%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95&amp;diff=26&amp;oldid=prev"/>
		<updated>2023-04-10T03:43:01Z</updated>

		<summary type="html">&lt;p&gt;添加梯度下降法页面&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;== 摘要 ==&lt;br /&gt;
梯度下降法（Gradient Descent, GD）是一种常用的优化算法，用于求解无约束的最优化问题。它通过沿负梯度方向迭代更新参数，直到达到局部最小值。梯度下降法在机器学习、深度学习、信号处理等领域具有广泛的应用。&lt;br /&gt;
&lt;br /&gt;
== 基本概念 ==&lt;br /&gt;
梯度下降法是一种基于梯度的优化算法，主要用于求解无约束的最优化问题。给定一个目标函数 f(x)，其中 x 是待求解的参数，梯度下降法的目标是找到一个参数值 &amp;lt;math&amp;gt;\boldsymbol{x}^*&amp;lt;/math&amp;gt;，使得 &amp;lt;math&amp;gt;f(\boldsymbol{x})&amp;lt;/math&amp;gt; 达到局部最小值。&lt;br /&gt;
&lt;br /&gt;
== 原理 ==&lt;br /&gt;
梯度下降法的主要思想是利用目标函数的梯度信息，沿负梯度方向迭代更新参数。在每次迭代中，参数更新公式为：&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;\boldsymbol{x}_{k+1} = \boldsymbol{x}_k - \alpha \nabla f(\boldsymbol{x}_k)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中，&amp;lt;math&amp;gt;\boldsymbol{x}_k&amp;lt;/math&amp;gt;​ 是第 &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; 次迭代的参数值，&amp;lt;math&amp;gt;\nabla f(\boldsymbol{x}_k)&amp;lt;/math&amp;gt;是目标函数在 xk&amp;lt;math&amp;gt;\boldsymbol{x}_k&amp;lt;/math&amp;gt;​ 处的梯度，&amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt; 是学习率，用于控制迭代步长。梯度下降法通过不断迭代更新参数，直到满足收敛条件或达到最大迭代次数。&lt;br /&gt;
&lt;br /&gt;
== 变种 ==&lt;br /&gt;
梯度下降法的主要变种包括批量梯度下降（Batch Gradient Descent, BGD）、随机梯度下降（Stochastic Gradient Descent, SGD）和小批量梯度下降（Mini-batch Gradient Descent, MBGD）。&lt;br /&gt;
&lt;br /&gt;
# 批量梯度下降：每次迭代使用所有训练数据计算梯度。批量梯度下降的收敛速度较慢，但是每次迭代方向准确，容易找到全局最优解。&lt;br /&gt;
# 随机梯度下降：每次迭代使用一个训练数据计算梯度。随机梯度下降的收敛速度较快，但是每次迭代方向不稳定，容易陷入局部最优解。&lt;br /&gt;
# 小批量梯度下降：每次迭代使用一部分训练数据计算&lt;br /&gt;
# 梯度。小批量梯度下降是批量梯度下降和随机梯度下降的折衷，它在计算效率和收敛速度方面达到了较好的平衡。&lt;br /&gt;
&lt;br /&gt;
== 应用实例 ==&lt;br /&gt;
梯度下降法在实际应用中有很多用途，例如：&lt;br /&gt;
&lt;br /&gt;
# 机器学习：在机器学习中，梯度下降法可以用于求解回归、分类等任务的模型参数。例如，在线性回归、逻辑回归、支持向量机等模型中，梯度下降法可以用于求解最优参数。&lt;br /&gt;
# 深度学习：在深度学习中，梯度下降法是训练神经网络的核心算法。通过使用反向传播算法计算梯度，梯度下降法可以用于更新神经网络的权重和偏置参数。&lt;br /&gt;
# 信号处理：在信号处理中，梯度下降法可以用于求解去噪、压缩等问题。例如，在图像去噪中，可以通过梯度下降法求解总变差正则化的优化问题。&lt;br /&gt;
# 控制系统：在控制系统中，梯度下降法可以用于求解系统参数。例如，在自适应控制中，可以通过梯度下降法求解控制器的参数。&lt;br /&gt;
&lt;br /&gt;
== 局限性 ==&lt;br /&gt;
虽然梯度下降法在实际应用中具有广泛的用途，但它也存在一定的局限性：&lt;br /&gt;
&lt;br /&gt;
# 局部最优解：在非凸问题中，梯度下降法可能陷入局部最优解，而无法找到全局最优解。在这种情况下，可以考虑使用启发式搜索方法或多次随机初始化进行求解。&lt;br /&gt;
# 选择合适的学习率：选择合适的学习率是梯度下降法的一个挑战。过大的学习率可能导致参数更新过大，无法收敛；过小的学习率可能导致收敛速度过慢。在实际应用中，可以使用学习率衰减、自适应学习率等方法来解决这个问题。&lt;br /&gt;
# 梯度计算：在高维空间中，梯度计算可能变得非常复杂。在这种情况下，可以考虑使用次梯度方法、近似梯度方法或其他优化算法进行求解。&lt;br /&gt;
# 梯度消失和梯度爆炸：在某些问题中，梯度可能出现消失或爆炸现象，导致梯度下降法无法收敛&lt;/div&gt;</summary>
		<author><name>Gezhikaiwu</name></author>
	</entry>
</feed>