SLAM基础——如何从最大后验概率到最小二乘（理论篇）

发表于 2023-05-29 更新于 2024-09-19 分类于 SLAM ， Theory 阅读次数： Changyan：

最大后验概率

符号说明

本文的标记没有用粗体表示，但是要记住本文的变量都是任意多维变量

定义

最大后验概率（MAP:Maximum a Posterior）具有以下逻辑

我们的最终目标是想要估计一个未知量\(x\)，令其概率分布为\(p(x)\).
如果我们能够知道\(p(x)\)的具体表达，则\(x\)的估计值应该使得概率最大
当我们知道一些与\(x\)有关的观测结果\(z\)，\(p(x|z)\)称做\(x\)的后验概率
于是我们的估计可以变成使得\(p(x|z)\)最大化的\(x\)

上述问题称作最大后验概率，也就是在已知观测值的情况下如何求取未知量。从形式上可以做如下定义：

\[ \hat{x}_{MAP}(z)=\underset{x}{\operatorname{argmax\ }}p(x|z)\tag{1} \]

将上述定义代入SLAM问题

\(x\)对应机器人的位姿
\(z\)对应SLAM系统的观测，比如路标点、激光里程计的输出、视觉里程计的输出等
SLAM的后端优化最终目标就是求取在给定的观测下，机器人的位姿估计值，也就是使得后验概率\(p(x|z)\)最大化的位姿\(x\)

最大似然估计

贝叶斯定理

为了让没有基础的读者更容易理顺推理的过程，我们先简单介绍一下贝叶斯定理（Bayes's theorem）

贝叶斯定义描述随机事件A和B的条件概率的一个关系： \[ P(A|B) = \frac{P(A)P(B|A)}{P(B)}\tag{Bayes's Theorem} \]

\(P(A)\)是\(A\)的先验概率，也就是事件\(A\)的概率分布。\(P(B)\)同理
\(P(A|B)\)是事件\(B\)发生后\(A\)的条件概率，也叫\(B\)发生后\(A\)的后验概率
\(P(A|B)\)表示的是事件\(B\)是结果，A是因，就是在知道结果的情况下求原因的概率
\(P(B|A)\)是事件\(A\)发生后\(B\)的条件概率。但是应该理解当\(B\)固定后\(A\)的似然，也就是\(P(B|A)=L(A|B)\)
\(P(B|A)\)或者\(L(A|B)\)表示已知有事件B发生，运用似然函数\(L(A|B)\)，我们估计或猜测\(A\)的不同值的可能性

注意：在上面中\(A、B\)是有区分的，虽然\(P(B|A)\)的形式与条件概率函数的形式相同，但是我们关注的变量是\(A\)

参考： 1. 关于贝叶斯定理的推导wiki 2. 关于似然函数的理解wiki

从最大后验概率（MAP）到最大似然估计（MLE）

回顾：（对理解很重要，所以回顾一下）在公式（1）中，\(x\)代表我们要估计的机器人位姿，\(z\)代表我们的观测。这里的观测是一个宽泛的定义，路标（landmark）可以是一种观测，图像特征点也可以是一种观测，激光里程计或者视觉里程计的结果也可以是一种观测。注意：应该是现有了机器人当前的位姿，然后在当前位姿下对周围环境进行观测。也就是当前位姿是因，观测是果

根据贝叶斯定理，有：

\[ \begin{split} p(x|z) &= \frac{p(z|x)p(x)}{p(z)}\\ &\propto p(z|x)p(x) \end{split} \]

上述公式结果的第一项称为似然（likelihood），第二项是是先验（prior）用文字解释一下就是，直接求位姿的最大后验概率是很困难的，但是根据贝叶斯法则，我们可以转换为求取似然和先验的乘积的最大，即下式

\[ \begin{split} \hat{x}_{MAP} &= \underset{x}{\operatorname{argmax\ }}p(x|z)\\ &= \underset{x}{\operatorname{argmax\ }}p(z|x)p(x)\\ &\approx \underset{x}{\operatorname{argmax\ }}p(z|x) \end{split}\tag{2} \]

当然，我们也没有机器人位姿的先验\(p(x)\)，于是，公式（2）可以近似成只求取最大似然(MLE,Maximum LIkelihood Estimation)

\[ \hat{x}_{MLE} = \underset{x}{\operatorname{argmax\ }}p(z|x)\tag{3} \]

MAP与MLE的联系

在上文公式（2）中我们直接忽略了先验项\(p(x)\)，并在最大后验概率和最大似然两者间用了约等号，那么这两者间是否有什么其他关系呢？

\[ \begin{split} \hat{x}_{MAP} &= \underset{x}{\operatorname{argmax\ }}p(x|z)\\ &= \underset{x}{\operatorname{argmax\ }} \ln p(x|z)\\ &= \underset{x}{\operatorname{argmax\ }} \ln p(z|x)p(x)\\ &= \underset{x}{\operatorname{argmax\ }} \ln p(z|x) + \ln p(x)\\ \end{split} \]

如果当先验概率\(p(x)\)是一个均分分布的时候，上式就会变成：

\[ \begin{split} \hat{x}_{MAP} &= \underset{x}{\operatorname{argmax\ }} \ln p(z|x) + \ln p(x)\\ &= \underset{x}{\operatorname{argmax\ }} \ln p(z|x) + constant\\ &= \underset{x}{\operatorname{argmax\ }} \ln p(z|x) \end{split} \]

也就是说MLP实际上是MAP中，将先验概率做均匀分布假设的特殊情况 上面这句话就是说，在没有任何其他条件下，我们认为\(x\)取任何值的概率都一样。

当然，其实我们也可以直接认为SLAM后端的问题就是在给定观测的情况下，求取位姿的似然

最大似然的负对数形式

公式（3）中，可以对优化目标取负对数（对数函数是单调函数，最大化单调递增函数等价于最小化递减函数），于是，我们有如下形式：

\[ \begin{split} \hat{x}_{MLE} &= \underset{x}{\operatorname{argmax\ }}p(z|x)\\ &= \underset{x}{\operatorname{argmin\ }} - \ln p(z|x) \end{split}\tag{4} \]

我们后文都会采用公式（4）这种形式

从最大似然估计到非线性最小二乘问题

高斯分布的最大似然估计形式

因为高斯分布有很多优美的性质，所以我们在SLAM中大量地假设各种变量符合高斯分布，这一小节先推导高斯分布的最大似然估计的形式，方便后面直接使用。 PS:这部分的标记没有用粗体表示，但是要记住这里的变量都是多维变量

对于一个任意高维高斯分布：\(x \sim \mathcal{N}(\mu,\Sigma)\)，概率密度函数为：

\[ p(x) = \frac{1}{\sqrt{(2\pi)^N det(\Sigma)}}\exp\big(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\big) \]

对上述取负对数，可得：

\[ -\ln(p(x)) = \frac{1}{2}\ln\big((2\pi)^N\det(\Sigma)\big) + \frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\tag{5} \]

由于上述第一项与\(x\)无关，于是在求最小化的时候第一项可以忽略。上述第二项中，\(\Sigma^{-1}\)叫做 信息矩阵 ,为协方差的倒数

\[ 信息矩阵 := \Sigma^{-1} \]

SLAM优化目标的最小二乘形式

令机器人当前时刻的姿态为\(x\),观测于姿态之间的关系使用函数\(h(x)\)表达。则，对于观测\(z\)，有如下观测模型：

\[ z = h(x) + v \]

其中\(v\)为噪声项，我们假设噪声项服从均为为0，方差为\(Q\)的高斯分布，也就是

\[ v \sim \mathcal{N}(h(x), Q) \]

于是，而可以得到，在状态\(x\)即已知道的情况下，观测\(z\)的条件概率（也就是似然）也是一个高斯分布

\[ z \sim \mathcal{N}(h(x), Q) \]

为了求得\(x\)，求最大似然，根据公式（5），并忽略第一项和第二项的\(\frac{1}{2}\)系数，则：

\[ \begin{split} \hat{x}_{MLE} &=\underset{x}{\operatorname{argmax\ }} p(z|x)\\ &=\underset{x}{\operatorname{argmin\ }} -\ln p(z|x)\\ &=\underset{x}{\operatorname{argmin\ }} (z-h(x))^T\Sigma^{-1}(z-h(x)) \end{split}\tag{6} \]

可以看出，公式（6）是一个二次型，可以看成是信息矩阵\(\Sigma^{-1}\)加权后的欧式距离（二范数）。其中的\(h(x)\)我们可以称为观测模型，描述机器人位姿和观测之间的关系。我们可以定义观测与模型之间的误差如下：

\[ e_{z} = z - h(x) \]

则，公式（6）可以写成

\[ \begin{split} \hat{x}_{MLE} &= \underset{x}{\operatorname{argmin\ }}\big(z-h(x)\big)^T\Sigma^{-1}\big(z-h(x)\big)\\ &= \underset{x}{\operatorname{argmin\ }}||e_z||^2_{\Sigma^{-1}} \end{split}\tag{7} \]

公式（7）的\(\Sigma_{-1}\)下标指使用信息矩阵进行加权