「最大似然估计」：修訂間差異

於 2023年7月25日 (二) 09:09 的修訂

最大似然估計（Maximum Likelihood Estimation，MLE）是一種統計方法，用於估計模型參數。

定義

最大似然估計的基本思想是：給定一組觀測數據，以及一個概率模型，我們應該選擇哪些參數值能使得這組觀測數據出現的概率最大。

公式

假設我們有一個概率模型 $P(X|\theta )$ ，其中 $X$ 是觀測數據， $\theta$ 是模型參數。我們可以定義似然函數 $L(\theta |X)=P(X|\theta )$ ，然後找到 $\theta$ 的值使得 $L(\theta |X)$ 最大。

如果我們的觀測數據 $X$ 是獨立同分布的，那麼似然函數可以寫成： $L(\theta |X)=\prod _{i=1}^{n}P(x_{i}|\theta )$ 其中， $x_{i}$ 是觀測數據中的第 $i$ 個樣本， $n$ 是樣本的數量。

為了方便計算，我們通常會取對數，得到對數似然函數： $\log L(\theta |X)=\sum _{i=1}^{n}\log P(x_{i}|\theta )$

然後，我們找到使得對數似然函數最大的 $\theta$ 的值。這可以通過求解下面的優化問題來實現： ${\hat {\theta }}=\arg \max _{\theta }\log L(\theta |X)$ 這個優化問題通常可以通過解析方法或數值優化方法來求解。

計算方法

最大似然估計的計算方法通常包括解析解和數值解。對於一些簡單的模型，例如正態分布，我們可以直接求解似然函數的最大值。對於一些複雜的模型，例如混合模型，我們可能需要使用數值優化方法，例如梯度下降、牛頓法等。

性質

最大似然估計有許多重要的性質，包括：

無偏性：在大樣本下，最大似然估計是無偏的。這意味著，如果我們多次從同一個分布中抽取樣本，並對每個樣本進行最大似然估計，那麼這些估計值的平均值將接近真實的參數值。例如，如果我們多次抽取樣本，然後使用最大似然估計來估計正態分布的均值，那麼這些估計值的平均值將接近真實的均值。

一致性：最大似然估計是一致的。這意味著，隨著樣本數量的增加，最大似然估計的結果會趨近於真實的參數值。例如，如果我們從一個分布中抽取越來越多的樣本，然後使用最大似然估計來估計這個分布的參數，那麼這個估計值將趨近於真實的參數值。

有效性：在所有無偏估計中，最大似然估計的方差最小。這意味著，如果我們有多種方法都可以得到無偏的估計，那麼最大似然估計是最好的，因為它的估計結果最穩定，不會因為隨機誤差而產生大的波動。

漸進正態性：在大樣本下，最大似然估計服從正態分布。這意味著，如果我們多次從同一個分布中抽取樣本，並對每個樣本進行最大似然估計，那麼這些估計值將服從正態分布。這個性質在構造置信區間和假設檢驗時非常有用。

案例

最大似然估計在許多領域都有應用。例如：

1. 正態分布的參數估計：如果我們有一組觀測數據，我們認為這些數據來自一個正態分布，那麼我們可以使用最大似然估計來估計這個正態分布的均值和方差。

2. 邏輯回歸的參數估計：在機器學習中，邏輯回歸是一種常用的分類方法。我們可以使用最大似然估計來估計邏輯回歸的參數。

3. 泊松分布的參數估計：如果我們有一組計數數據，我們認為這些數據來自一個泊松分布，那麼我們可以使用最大似然估計來估計這個泊松分布的參數。

4. 指數分布的參數估計：如果我們有一組時間間隔數據，我們認為這些數據來自一個指數分布，那麼我們可以使用最大似然估計來估計這個指數分布的參數。

5. 混合模型的參數估計：在許多情況下，我們認為觀測數據來自多個不同的分布，這就是混合模型。我們可以使用最大似然估計，結合EM算法，來估計混合模型的參數。

6. 隱馬爾可夫模型的參數估計：在語音識別和自然語言處理等領域，隱馬爾可夫模型是一種常用的模型。我們可以使用最大似然估計，結合Baum-Welch算法，來估計隱馬爾可夫模型的參數。

7. 生存分析中的參數估計：在生存分析中，我們通常使用柯克斯比例風險模型來描述生存時間和協變量之間的關係。我們可以使用最大似然估計來估計柯克斯比例風險模型的參數。

8. 神經網絡的參數估計：在深度學習中，神經網絡是一種常用的模型。我們可以使用最大似然估計，結合梯度下降等優化算法，來估計神經網絡的參數。

優點和缺點

最大似然估計的優點包括理論基礎堅實、計算方法多樣、性質良好。但是，它的缺點是可能過於依賴模型的假設，如果模型的假設不成立，那麼最大似然估計的結果可能會不準確。

@@ 行 1： / 行 1： @@
-== 最大似然估计 ==
 '''最大似然估计'''（Maximum Likelihood Estimation，MLE）是一种统计方法，用于估计模型参数。
-=== 定义 ===
+== 定义 ==
  最大似然估计的基本思想是：给定一组观测数据，以及一个概率模型，我们应该选择哪些参数值能使得这组观测数据出现的概率最大。
-=== 公式 ===
+== 公式 ==
  假设我们有一个概率模型<math>P(X|\theta)</math>，其中<math>X</math>是观测数据，<math>\theta</math>是模型参数。我们可以定义似然函数<math>L(\theta|X) = P(X|\theta)</math>，然后找到<math>\theta</math>的值使得<math>L(\theta|X)</math>最大。
@@ 行 25： / 行 24： @@
  这个优化问题通常可以通过解析方法或数值优化方法来求解。
-=== 计算方法 ===
+== 计算方法 ==
  最大似然估计的计算方法通常包括解析解和数值解。对于一些简单的模型，例如正态分布，我们可以直接求解似然函数的最大值。对于一些复杂的模型，例如混合模型，我们可能需要使用数值优化方法，例如梯度下降、牛顿法等。
-=== 性质 ===
+== 性质 ==
  最大似然估计有许多重要的性质，包括：
-* '''无偏性'''：在大样本下，最大似然估计是无偏的。这意味着，如果我们多次从同一个分布中抽取样本，并对每个样本进行最大似然估计，那么这些估计值的平均值将接近真实的参数值。例如，如果我们多次抽取样本，然后使用最大似然估计来估计正态分布的均值，那么这些估计值的平均值将接近真实的均值。
+*'''无偏性'''：在大样本下，最大似然估计是无偏的。这意味着，如果我们多次从同一个分布中抽取样本，并对每个样本进行最大似然估计，那么这些估计值的平均值将接近真实的参数值。例如，如果我们多次抽取样本，然后使用最大似然估计来估计正态分布的均值，那么这些估计值的平均值将接近真实的均值。
-* '''一致性'''：最大似然估计是一致的。这意味着，随着样本数量的增加，最大似然估计的结果会趋近于真实的参数值。例如，如果我们从一个分布中抽取越来越多的样本，然后使用最大似然估计来估计这个分布的参数，那么这个估计值将趋近于真实的参数值。
+*'''一致性'''：最大似然估计是一致的。这意味着，随着样本数量的增加，最大似然估计的结果会趋近于真实的参数值。例如，如果我们从一个分布中抽取越来越多的样本，然后使用最大似然估计来估计这个分布的参数，那么这个估计值将趋近于真实的参数值。
-* '''有效性'''：在所有无偏估计中，最大似然估计的方差最小。这意味着，如果我们有多种方法都可以得到无偏的估计，那么最大似然估计是最好的，因为它的估计结果最稳定，不会因为随机误差而产生大的波动。
+*'''有效性'''：在所有无偏估计中，最大似然估计的方差最小。这意味着，如果我们有多种方法都可以得到无偏的估计，那么最大似然估计是最好的，因为它的估计结果最稳定，不会因为随机误差而产生大的波动。
-* '''渐进正态性'''：在大样本下，最大似然估计服从正态分布。这意味着，如果我们多次从同一个分布中抽取样本，并对每个样本进行最大似然估计，那么这些估计值将服从正态分布。这个性质在构造置信区间和假设检验时非常有用。
+*'''渐进正态性'''：在大样本下，最大似然估计服从正态分布。这意味着，如果我们多次从同一个分布中抽取样本，并对每个样本进行最大似然估计，那么这些估计值将服从正态分布。这个性质在构造置信区间和假设检验时非常有用。
+== 案例 ==
-=== 案例 ===
  最大似然估计在许多领域都有应用。例如：
@@ 行 59： / 行 57： @@
 . '''神经网络的参数估计'''：在深度学习中，神经网络是一种常用的模型。我们可以使用最大似然估计，结合梯度下降等优化算法，来估计神经网络的参数。
+== 优点和缺点 ==
-=== 优点和缺点 ===
  最大似然估计的优点包括理论基础坚实、计算方法多样、性质良好。但是，它的缺点是可能过于依赖模型的假设，如果模型的假设不成立，那么最大似然估计的结果可能会不准确。