Dingnuooo's Notes

ADMM 算法原理推导

Sat, 21 Mar 2026 00:00:00 GMT

import { Aside } from 'astro-pure/user'

{/* 更新中

前置内容：KKT条件 ↗

优化算法做的事情就是为了求出满足 KKT 条件的解

凸优化，指的是目标函数为凸函数、不等式约束为凸函数、等式约束为线性函数或仿射函数
凸函数：定义域为凸集、任意两点连线上的值 $\ge$ 对应自变量的函数值（即盆地形状，称为下凸函数；山峰那种称为上凸函数）

惩罚函数与 dual ascent

考虑一个优化问题 $$ \begin{aligned}
\min\limits_{x}\quad &f(x)\
s.t.\quad &g_k(x)\leq0,\quad k=1,\cdots,K\
\quad & h_\ell(x)=0,\quad \ell =1,\cdots,L
\end{aligned} $$

我们把约束当成惩罚项。定义 $$ \tilde{f}(x)=f(x)+\sum\limits I_{k}(g_k(x))+\sum\limits J_{\ell }(h_\ell(x)) $$ 其中 $I$ 和 $J$ 即理想罚函数，分别对应各自的约束

$I_k(\cdot)$ 当自变量 $\leq0$ 时为 0、$>0$ 时为 $+\infty$
$J_\ell(\cdot)$ 当自变量 $=0$ 时为 0、$\neq0$ 时为 $+\infty$

这样我们相当于在无约束条件下做 $\min\tilde{f}(x)$，当解不符合约束时 $\tilde{f}$ 飙到正无穷，那么 minimize 过程就会自动把这些不符合约束的解踢掉。

对比原问题的 Lagrange 函数：$L(x,\alpha ,\beta )=f(x)+\alpha ^Tg(x)+\beta ^Th(x)$，相当于用线性函数来近似这个惩罚函数。对于不等式约束，为了实现 $I_k$，那么斜率 $\alpha_k$ 就要是正的，这样 $g_k$ 大于 0 的时候就有正的惩罚了，而且 $\alpha_k$ 越大惩罚越重。我们自然希望 $\alpha_k$ 越大越好，但是这会导致负半轴 $g_k(x)\leq0$ 出问题：为了得到尽可能小的值，minimize 过程会通过把 $g_k(x)$ 弄得很小来刷 $\tilde{f}$ 最小值，而不会去在乎原来的那个 $f(x)$ 是不是在变小。所以我们希望的是，$\alpha_k$ 在负半轴为 0、正半轴为 $+\infty$。

一个自然的实现方式是，把惩罚从 $\alpha_kg_k(x)$ 改成 $\max \alpha_kg_k(x)$，使得不论什么时候都找一个 $\alpha_k$ 使惩罚最大化（这里其实是 sup，但我们假定存在严格可行点）。这样，在负半轴 $\alpha_k$ 只能取最小值 0（否则惩罚就是负的）、在正半轴总能找到一个足够大的 $\alpha_k$ 使得惩罚 $\to\infty$。这样整完实际上就是理想惩罚函数 $$ I_k(g_k(x))=\max\limits_{\alpha_k\geq0}\alpha_kg_k(x) $$

同理地，对于等式约束，也可以用同样的推理过程得到惩罚函数的表达式 $$ J_\ell(h_\ell(x))=\max\limits_{\beta_\ell}\beta_\ell h_\ell(x) $$ 注意 $\beta_\ell$ 没有限制范围，因为对于等式约束，负半轴也要惩罚，只有当 $h_\ell=0$ 时才不惩罚。因此当 $h>0$ 时取 $\beta>0$、当 $h<0$ 时取 $\beta<0$，使得随时有正惩罚。

所以原始问题的解与下面这个问题的解是相同的：其中 $\alpha\geq0$ 的意思是每个分量都大于 0 $$ \min\limits_{x}\max\limits_{\alpha\geq0 ,,\beta }f(x)+\alpha ^Tg(x)+\beta ^Th(x) $$

进一步地，如果原问题是凸优化，那么 max 和 min 可以互换（称为强对偶性），得到对偶问题 $$ \max\limits_{\alpha\geq0 ,,\beta }\min\limits_{x}f(x)+\alpha ^Tg(x)+\beta ^Th(x) $$ 这样相当于把主元从 $x$ 变成了对偶变量 $\alpha$ 和 $\beta$，里头是一个关于 $\alpha$ 和 $\beta$ 的线性函数，因此 minimize 步骤的本质就是对一堆平面取小，这拼出来是一个上凸的山峰。这样外层问题就转化为“无约束地 maximize 一个上凸函数”，内层就是关于 $x$ 的含参 minimize，这两个问题都是好做的。

这给出了一个求解方法，称为 dual ascent：轮流更新自变量和对偶变量，一步 min 一步 max：注意不等式约束的乘子 $\alpha$ 需要取正值 $$ \begin{aligned} \min:\quad x^{(i+1)} &= \arg\min_x L(x, \alpha^{(i)}, \beta^{(i)})\ \max:\quad \alpha^{(i+1)} &= \big[\alpha^{(i)} + \eta^{(i)} g(x^{(i+1)})\big]^+\ \beta^{(i+1)} &= \beta^{(i)} + \eta^{(i)} h(x^{(i+1)})\ \end{aligned} $$

增广 Lagrange 函数法

dual ascent 要求每一步的 argmin 都能给出明确的极小值。当 $g,h$ 是线性约束时，如果 $f$ 不是一个足够凸的函数（例如绝对值函数），惩罚项很容易把 Lagrange 函数变成斜坡，这样 $\arg\min$ 就跑飞到无穷了。

所以要通过某种方式，修改 Lagrange 函数，强行变成凸的，但不改变最优化的结果。最简单的凸因子就是二次函数。因此增加二次惩罚项：

对于等式约束 $h_\ell(x)=0$，惩罚变为 $\beta_\ell h_\ell (x)+\dfrac{\rho}2\big(h_\ell (x)\big)^2$，其中 $\rho>0$ 为惩罚参数。只要 $\rho$ 足够大，就能把原问题强行凸化；且最优时 $h_\ell =0$，故增加这个惩罚并不会改变优化结果。
对于不等式约束 $g_k(x)\leq0$，不能直接取平方，因为当 $g_k<0$ 时不应惩罚。解决方法：引入辅助量 $s_k\geq0$ 将不等式约束转化为等式约束，即 $g_k(x)+s_k=0$，然后仿照等式约束的惩罚 $$ \alpha_k(g_k(x)+s_k)+\dfrac\rho2\big(g_k(x)+s_k\big)^2 $$ 这是一个关于 $s_k$ 的二次函数，所以在 minimize 的时候可以解析地给出 $\hat{s}_k$ 的值。这个二次函数开口向上、对称轴 $\hat{s}_k=\dfrac{\alpha_k+\rho g_k(x)}{\rho}$，由于 $s_k\geq0$：
- 当轴 $\leq0$ 时，取 $s_k=0$，化简得惩罚 $=\dfrac{\big(\alpha_k+\rho g_k(x)\big)^2-\alpha_k^2}{2\rho}$
- 当轴 $>0$ 时，取 $s_k=$ 轴，化简得惩罚 $=-\dfrac{\alpha_k^2}{2\rho}$
- 统一表达式为 $\dfrac{1}{2\rho} \bigg( \big(\left[ \alpha_k + \rho g_k(x)\right]^+\big)^2 - \alpha_k^2 \bigg)$，称为 PHR 罚函数

于是问题转化为：其中 $[,\cdot,]^+$ 表示逐元素取正值，$|\cdot|^2$ 表示向量模长的平方 $$ \min\limits_{x}\max\limits_{\alpha\geq0 ,,\beta },f(x) + \dfrac{1}{2\rho} \bigg( \big|\ [ \alpha + \rho g(x)]^+\big|^2 - |\alpha|^2 \bigg) + \left( \beta^T h(x) + \frac{\rho}{2} |h(x)|^2 \right) $$ 然后对它做 dual ascent 就行了，更新方法是一样的。这称为增广 Lagrange 函数法（ALM）

特别地，当只有等式约束的时候，通常令 $u=(1/\rho )\beta$，这样可以把增广 Lagrange 函数配方： $$ \begin{aligned} L&=f(x)+\beta^T h(x) + \frac{\rho}{2}|h(x)|^2 \ &= f(x)+\frac{\rho}{2} \left| h(x) + \frac{1}{\rho}\beta \right|^2 - \frac{1}{2\rho}|\beta|^2\ &=f(x)+\frac{\rho}{2}\left(|h(x)+u|^2-|u|^2\right) \end{aligned} $$ 更新步骤变为： $$ \begin{aligned} \min:\quad x^{(i+1)} &= \arg\min_x \left(f(x)+\frac{\rho}{2}\left(|h(x)+u|^2-|u|^2\right)\right)\ \max:\quad u^{(i+1)} &= u^{(i)} + h(x^{(i+1)})\ \end{aligned} $$ 这称为缩放形式的 ALM。其中学习率一般取 1，因为凸优化的时候 $\beta$ 的最佳学习率就是 $\rho$，于是 $u$ 的学习率就是 1（why?）

ADMM

对于一个优化问题，当问题规模很大的时候，通常有两种优化方式：要么一次只取一小部分样本来优化（例如 mini-batch 梯度下降），要么一次只优化 $\mathbf{x}$ 的一部分分量。前者具有通用性，因为随机样本保证了各样本同性；但后者不行，因为各个分量之间的耦合关系说不清。

考虑一类优化问题，它的自变量是由两组物理意义完全不同的变量拼起来的，分别对应目标函数的两个部分。也即问题可以写成 $$ \begin{aligned} x&=(u,v)\ \min\limits_{x}\quad &f_1(u) + f_2(v)\ s.t.\quad &Au+Bv=c \end{aligned} $$ 比如 $u$ 是一个图像，对应 loss $f_1$；$v$ 是网络权重，对应 loss $f_2$，目标是最小化一个联合 loss $\alpha f_1+\beta f_2$，就属于这种优化问题。

我们使用 dual ascent 来求解。Lagrange 函数 $$ L(u, v, \beta) = f_1(u) + f_2(v) + \beta^T(Au + Bv - c) $$ 在做 minimize 步骤时，由于使用线性惩罚，我们有 $$ \begin{aligned} \min_{x} L&=\min_{u, v}\ f_1(u) + f_2(v) + \beta^T(Au + Bv - c) \ &= \left( \min_u\ [f_1(u) + \beta^T A u] \right) + \left( \min_v \ [f_2(v) + \beta^T B v] \right) - \beta^T c \end{aligned} $$ 这说明，寻找 $x=(u,v)$ 联合最小值的过程，可以拆成 $u$ 和 $v$ 两个独立的小问题，分给两个 cpu 并行计算。也就是说，dual ascent 在解决可分问题的时候可并行。

dual ascent 需要目标函数足够凸。当不够凸的时候，解决方法是 ALM，也即把惩罚改成二次的强行凸化。但这就出问题了，因为这里引入了二次项，其中存在 $u$ 和 $v$ 的交叉项，打破了 dual ascent 的并行性。

但其实根本不用管，只需要在更新自变量的时候交替更新 $u$ 和 $v$ 就行了，这就是交替方向乘子法（ADMM），相当于宏观上并行、微观上串行 $$ \begin{aligned} \min:\quad u^{(i+1)} &= \arg\min_u L(u, v^{(i)}, \beta^{(i)})\ v^{(i+1)} &= \arg\min_v L(u^{(i+1)}, v, \beta^{(i)})\ \max:\quad \beta^{(i+1)} &= \beta^{(i)} + \eta^{(i)}(Au^{(i+1)} + Bv^{(i+1)} - c)\ \end{aligned} $$

对于不等式约束，直接沿用 ALM 的结论，用 PHR 罚函数就行了，因为本质上 ADMM 只是把可分的两个部分交替来做，和 ALM 没区别。

至于收不收敛，那是数学家的事。

非线性约束

需要注意，从头到尾我们讨论的都是线性约束情形，因为 dual ascent 要求凸优化，但实际当中大量的约束是非线性的，而且 ALM 还得对它平方，这导致增广 Lagrange 函数很扭曲，argmin 不好做。

而 ADMM 的形式给出了一种解决思路，称为变量拆分，也即用两个变量，分别解决目标函数和约束函数。类似最开始讲的惩罚函数的想法，把约束写成惩罚项，只不过那会儿惩罚函数的自变量是 $x$，无法把约束剥离出来。所以换一个自变量，定义 $I_{\mathcal{S}}(z)=\begin{cases}0,&z\in \mathcal{S}\+\infty,& \text{others}\end{cases}$，其中 $\mathcal{S}$ 即满足约束的 $x$ 构成的集合，这样问题就可以改写为 $$ \begin{aligned} \min\limits_{x, z}\quad &f(x) + I_{\mathcal{S}}(z)\ s.t.\quad &x - z = 0 \end{aligned} $$ 然后就是交替更新步骤了。还是令 $u=(1/\rho )\beta$ 配方，迭代过程变为 $$ \begin{aligned} x^{(k+1)} &= \arg\min_x \left( f(x) + \frac{\rho}{2}|x - z^{(k)} + u^{(k)}|2^2 \right) \ z^{(k+1)} &= \arg\min_z \left( I{\mathcal{S}}(z) + \frac{\rho}{2}|x^{(k+1)} - z + u^{(k)}|_2^2 \right) \ u^{(k+1)} &= u^{(k)} + x^{(k+1)} - z^{(k+1)} \end{aligned} $$ 观察 $z$ 的更新步骤，其本质是在集合 $\mathcal{S}$ 中找一个离 $x^{(k+1)}!+!u^{(k)}$ 最近的点。所以只要 $\mathcal{S}$ 的形状不太复杂（例如圆形球形等），还是可以通过几何方法变成简单计算。

ADMM-Net

Deep Unfolding 是一种迭代算法的网络化方法，我们把所有涉及到的这些变量 $x$、$z$、$u$ 看作网络中流动的特征，而参数 $\rho$ 则对应网络中每一层的权重，迭代几次就相当于流过几层。把这个方法代入 ADMM 就是 ADMM-Net：

先将迭代公式展开成计算图。
- 每一层对应一次迭代，如果计划迭代 $K$ 次，就构建一个 $K$ 层的网络
- 第 $k$ 层的输出 $(x^{(k)}, z^{(k)}, u^{(k)})$ 直接作为第 $k+1$ 层的输入
- 每一层内部的代码就是 ADMM 的那三个更新公式。每个子步骤必须可微
定义可学习参数 $\Theta$，一般就是惩罚因子和更新步长 ${\rho_k, \eta_k}$。通常每一层设置一套独立的参数，允许网络前几层走得快，后几层走得稳。
loss：直接用增广 Lagrange 函数（无监督的时候）

训练好的 ADMM-Net 通常只需要 5-10 层就能达到传统算法迭代上百次的效果。相比传统网络，每一层的计算是有物理含义的，而不是黑盒。因此 ADMM-Net 具有更好的泛化能力，甚至在训练数据分布发生变化的时候也能保持性能。

数学分析 Chapter 9 多元函数微分学

Sat, 04 May 2024 00:00:00 GMT

import { Aside } from 'astro-pure/user'

本章速通：数学分析记忆佛脚（下） - Chapter 9 多元函数微分学 ↗

{/* ## Section A 偏导与全微分

9.1 偏导

9.2 全微分

9.3 高阶偏导

9.4 高阶微分

9.5 向量值函数的导数与微分

9.6 复合函数微分

Section B 多元中值定理

9.7 中值定理

9.8 Taylor 公式

Section C 隐函数与逆映射

9.9 隐函数存在定理

9.10 逆映射存在定理

Section D 切线法平面、法线切平面

9.11 曲线的切线与法平面

9.12 曲面的法线与切平面 */}

Section E 多元函数极值

对于 $f$，若 $\forall x\in U_\rho( \hat{x})$ 有 $f(x)\leq f(\hat{x})$，则称 $\hat{x}$ 为 $f$ 的极大值点。极小值类似定义

9.13 无条件极值

曰（极值点的必要条件）：若 $f$ 可偏导，则偏导均为零，即 $f_{x_1}(\hat{x})=f_{x_2}(\hat{x})=\cdots=f_{x_n}(\hat{x})=0$

证明：

令 $\varphi_1(x)=(x,\hat{x}_2,\cdots,\hat{x}_n)$，当 $\hat{x}$ 为 $f$ 极值点时，由定义知 $\hat{x}_1$ 也得是 $\varphi 1(x)$ 的极值点，所以 $f{x_1}(\hat{x})=\varphi _1'(\hat{x}_1)=0$
令 $\varphi_2(x)=(\hat{x}_1,x,\cdots,\hat{x}_n)$，当 $\hat{x}$ 为 $f$ 极值点时，由定义知 $\hat{x}_2$ 也得是 $\varphi 2(x)$ 的极值点，所以 $f{x_2}(\hat{x})=\varphi _2'(\hat{x}_2)=0$
以此类推。$\square$

极值情况判定定理。一元情形时：$f'(x_0)=0$，$f''(x_0)\gt 0$ 时为极小，$f''(x_0)\lt 0$ 时为极大，$f''(x_0)=0$ 时情况不定。这是因为 Taylor 公式 $f(x_0!+!\Delta x)-f(x_0)=f'(x_0)\Delta x+\dfrac12f''(x_0!+!\theta \Delta x)\Delta x^2$，一阶导为零，所以等号左边是正是负就要看二阶导的正负。

二元情形： $$ \begin{aligned} f(x_0!+!\Delta x,y_0!+!\Delta y)-f(x_0,y_0)&=f_x(x_0,y_0)\Delta x+f_y(x_0,y_0)\Delta y+\ &\quad\dfrac12\bigg(f_{xx}(\tilde{\rho})\Delta x^2+f_{yy}(\tilde{\rho})\Delta y^2+2f_{xy}(\tilde{\rho})\Delta x\Delta y\bigg) \end{aligned} $$ 其中 $\tilde{\rho}=(x_0!+!\theta \Delta x,y_0!+!\theta \Delta y)$

由连续性，设

$f_{xx}(\tilde{\rho})=f_{xx}(x_0,y_0)+\alpha,\quad\alpha =o(1)$
$f_{xy}(\tilde{\rho})=f_{xy}(x_0,y_0)+\beta ,\quad\beta =o(1)$
$f_{yy}(\tilde{\rho})=f_{yy}(x_0,y_0)+\gamma ,\quad\gamma =o(1)$

于是 $$ \begin{aligned} f(x_0!+!\Delta x,y_0!+!\Delta y)-f(x_0,y_0)&=\dfrac12\bigg(f_{xx}(x_0,y_0)\Delta x^2+f_{yy}(x_0,y_0)\Delta y^2+2f_{xy}(x_0,y_0)\Delta x\Delta y+\ &\quad\quad\quad\alpha \Delta x^2+2\beta \Delta x\Delta y+\gamma \Delta y^2\bigg) \end{aligned} $$

令

$A=f_{xx}(x_0,y_0)$、$B=f_{xy}(x_0,y_0)$、$C=f_{yy}(x_0,y_0)$
$\rho=\sqrt{\Delta x^2+\Delta y^2}$、$\xi=\dfrac{\Delta x}{\rho}$、$\eta=\dfrac{\Delta y}{\rho}$，这样 $\xi^2+\eta^2=1$

于是 $f(x_0!+!\Delta x,y_0!+!\Delta y)-f(x_0,y_0)=\dfrac12\rho^2\bigg(A\xi^2+2B\xi\eta+C\eta^2+o(1)\bigg)$。括号里头就是一个二次型，所以等号左边的正负就相当于考虑右边二次型的定性（严格来说是在单位圆上的定性，但可以验证 $g(k\xi,k\eta)=k^2g(\xi,\eta)$，所以等价于直接考虑在整个平面上的定性）。令二次型 $$ g(\xi,\eta)= \begin{pmatrix} \xi&\eta \end{pmatrix} \begin{pmatrix} A&B\B&C \end{pmatrix} \begin{pmatrix} \xi\\eta \end{pmatrix} $$

当 $g$ 正定时，$(x_0,y_0)$ 为极小值点
当 $g$ 负定时，$(x_0,y_0)$ 为极大值点
当 $g$ 不定时，既不是极大值点又不是极小值点

回忆：正定负定的判断方法

正定：任一 $k$ 阶顺序主子式的行列式都 $>0$
负定：任一 $k$ 阶顺序主子式的行列式的 $(-1)^k$ 都 $>0$

对于二次型矩阵而言：

正定 $\Leftrightarrow A>0,,AC!-!B^2>0$，则为极小值点
负定 $\Leftrightarrow A<0,,AC!-!B^2>0$，则为极大值点
若 $AC!-!B^2<0$，则不是极值点（鞍点）
若 $AC!-!B^2=0$，则情况不定。例如 $f(x,y)=x^4$ 是极小值、$-x^4$ 是极大值、$x^3$ 不是极值

对于 n 元情形：那个二次型就是 $g(\xi)=\sum\limits_{i,j} f_{x_ix_j}(\hat{x})\xi_i\xi_j$，二次型矩阵 $\big(f_{x_ix_j}(\hat{x})\big)_{n\times n}$ 就是函数在 $\hat{x}$ 的二阶微分，称为 Hessian 矩阵。记它的 $k$ 阶顺序主子式为 $\Delta _k$：

当 $\forall k$，$\det(\Delta _k)>0$ 时，$g$ 正定，$\hat{x}$ 为极小值点
当 $\forall k$，$(-1)^k\det(\Delta _k)>0$ 时，$g$ 负定，$\hat{x}$ 为极大值点
$g$ 不定时，不是极值点

9.14 条件极值

例：求原点到直线 $l:\begin{cases}x+y+z=1\x+2y+3z=6\end{cases}$ 的距离

称 $f(z,y,z)=x^2+y^2+z^2$ 为目标函数，$\begin{cases}G(x,y,z)=x+y+z-1=0\ H(x,y,z)=x+2y+3z-6=0\end{cases}$ 为约束条件。于是问题转化为“求目标函数在约束条件下的最小值”。

设 $f$、$G$、$H$ 偏导连续，Jacobi $\begin{pmatrix}G_x&G_y&G_z\H_x&H_y&H_z\end{pmatrix}$ 在约束条件下秩为 2。不妨设 $\dfrac{\partial (G,H)}{\partial (y,z)}$ 在极值点处不为 0，则唯一确定 $\begin{cases}y=y(x)\z=z(x)\end{cases}$，于是原问题转化为求 $\varphi (x)=f(x,y(x),z(x))$ 的无条件极值： $$ \begin{aligned} \varphi '(x)&=f_x+f_y\cdot y'(x)+f_z\cdot z'(x)\ &=\begin{pmatrix} f_x&f_y&f_z \end{pmatrix}\begin{pmatrix} 1\y'\z' \end{pmatrix}=(\mathbf{grad},f)\cdot\vec\tau=0 \end{aligned} $$

把约束条件 $G=0$、$H=0$ 也对 $x$ 求导 $$ \begin{cases} G_x+G_y\cdot y'(x)+G_z\cdot z'(x)=0\quad\Rightarrow (\mathbf{grad},G)\cdot\vec\tau=0\ H_x+H_y\cdot y'(x)+H_z\cdot z'(x)=0\quad\Rightarrow (\mathbf{grad},H)\cdot\vec\tau=0 \end{cases} $$ 这说明 $\mathbf{grad},f$ 落在 $\mathbf{grad},G$ 和 $\mathbf{grad},H$ 张成的平面里（因为事先假设过 Jacobi rank=2，这两个梯度不共线），于是存在常数 $\lambda,,\mu$ 使得 $$ \mathbf{grad},f+\lambda \cdot\mathbf{grad},G+\mu \cdot\mathbf{grad},H=\vec0 $$ 展开 $x,y,z$ 三个分量就相当于三个方程，再加上两个约束 $G=0$、$H=0$，总共五个方程、$x,y,z,\lambda ,\mu$ 五个未知数，因此原问题相当于求 $$ L(x,y,z,\lambda ,\mu )=f(x,y,z)+\lambda G(x,y,z)+\mu H(x,y,z) $$ 这个五元函数的无条件极值，其中令 $\lambda,\mu$ 偏导为零等价于 $G=0,,H=0$

上述求条件极值的方法称为 Lagrange 乘子法。其中那个五元函数称为 Lagrange 函数，$\lambda,,\mu$ 称为 Lagrange 乘子。由于还是基于无条件极值，所以这个方法给出的仍然是必要条件。

完整的 Lagrange 乘子法：

相当于求 Lagrange 函数的无条件极值： $$ L(x_1, \dots, x_n, \lambda_1, \dots, \lambda_m) = f + \sum_{i=1}^m \lambda_i G_i $$ 也即极值点的必要条件为 $$ \begin{cases} \dfrac{\partial L}{\partial x_j} = 0, & j=1, \dots, n \ \dfrac{\partial L}{\partial \lambda_i} = G_i = 0, & i=1, \dots, m \end{cases} $$

条件极值情况判定定理：考虑矩阵 $\left(\dfrac{\partial ^2L}{\partial x_i\partial x_j}\right)_{n\times n}$ 在 Lagrange 函数极值点的定性，正定矩阵时为条件极小值点，负定矩阵时为条件极大值点，不定时情况不定。

为什么只看 $x$ 不看 $\lambda$ 呢？因为当满足约束时 $G=\vec0$，得 $$ \begin{aligned} L(x,\lambda)-L(\hat{x},\hat{\lambda})&=\big(f(x)+\lambda^TG(x)\big)-\big(f(\hat{x})+\lambda^TG(x)\big)\ &=f(x)-f(\hat{x})\ &=\dfrac12\rho^2(二次型+o(1)) \end{aligned} $$ 与 $\lambda$ 无关

无条件极值情形下，矩阵不定表示 $\hat{x}$ 不是极值点；为什么这里矩阵不定表示 $\hat{x}$ 不定？因为这里没看 $\lambda$

9.15 不等式约束与 KKT 条件

对于优化问题 $$ \begin{aligned} \min\limits_{x}\quad &f(x)\ s.t.\quad &g(x)\leq0 \end{aligned} $$ 这个 $g(x)\leq0$ 就是不等式约束。定义可行域：满足不等式约束的 $x$ 的集合，记为 $K$

我们先强行把 $g$ 看作等式约束。写出该问题的 Lagrange 函数 $$ L(x,\lambda)=f(x)+\lambda g(x) $$ 由 Lagrange 乘子法，最优解 $\hat{x}$ 的必要条件是 $\nabla f(\hat{x})+\lambda \nabla g(\hat{x})=0$。把这个解代回原问题，讨论这个最优解是否受到不等式约束的影响：

若 $g(\hat{x})<0$（内部解），此时约束恒成立，相当于没有这个约束（称为松弛的）。说明 $\hat{x}$ 已经是 $f$ 的极小值，也即 $\nabla f=0$，因此 Lagrange 乘子 $\lambda$ 只能 $=0$
若 $g(\hat{x})=0$（边界解），说明 $g(x)$ 约束的存在拦住了 $f$ 继续变小的道路，使得 $\hat{x}$ 停了下来。

也就是说，不管 $\hat{x}$ 是否在边界，$g(\hat{x})$ 和 $\lambda$ 必有一个是 0，即 $\lambda g(\hat{x})=0$。这被称为互补松弛条件。

还不够。对于边界解的 $\lambda$ 还要有所限制。如下图所示，其中一圈一圈的代表 $f$ 的等高线、弧线代表 $g(x)=0$。最优解 $\hat{x}$ 被 $g(x)=0$ 这条墙拦住了去路，说明这个地方 $\hat{x}$ 本来还想往下走的，因此 $\nabla f(\hat{x})$ 一定指向 $K$ 的内部；可行域内部 $g(x)<0$，所以 $\nabla g(\hat{x})$ 指向 $K$ 的外部。而 Lagrange 乘子法又说 $\nabla f+\lambda \nabla g=0$，因此这个 $\lambda$ 必须 $\geq0$。

也就是说，极值点的必要条件为（略去 hat 号，相当于解方程）：

Lagrange 函数偏导得 0：$\nabla f+\lambda \nabla g=0$
原始约束：$g(x)\leq0$
互补松弛条件：$\lambda g(x)=0$
梯度方向限制：$\lambda \geq0$

这四个条件，合称为 KKT 条件（Karush-Kuhn-Tucker）。

加入多个不等式约束、再加入等式约束，完整版的 KKT 长这样

定义 Lagrange 函数 $$ L(x,\alpha ,\beta )=f(x)+\alpha ^Tg(x)+\beta ^Th(x) $$ $$ \begin{aligned}
\alpha =(\alpha_1,\cdots,\alpha_K)^T\quad &g(x)=\big(g_1(x),\cdots,g_K(x)\big)^T\
\beta =(\beta_1,\cdots,\beta_K)^T\quad &h(x)=\big(h_1(x),\cdots,h_L(x)\big)^T
\end{aligned} $$ KKT 条件为

Lagrange 函数偏导得 0：$\nabla L(x,\alpha ,\beta)=0$
原始约束：$g_k (x)\leq0,\quad h_\ell (x)=0$
互补松弛条件：$\alpha_kg_k(x)=0$
梯度方向限制：$\alpha_k\geq0$

基于相关滤波的单目标跟踪

Mon, 01 Dec 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

问题描述

单目标跟踪是计算机视觉中的一个基础任务。其目标是在视频序列第一帧中框选目标，随后实时跟踪目标在后续每一帧中的位置。算法需要能够应对目标在运动过程中可能的发生旋转、形变、缩放等外观变化，以及环境光照变化、目标被遮挡、相似物体等干扰。

动机

面对目标跟踪问题，最直观的思路是做窗口匹配，也即在第一帧中截取目标的图像块作为模板，而在后续帧中使用滑动窗口的方式，将模板在搜索区域内逐像素移动，计算模板与当前窗口内图像的相似度，相似度最高的位置即为预测目标在当前帧的位置。

但该方法计算量较大，在空间域进行密集的滑动窗口匹配等价于卷积操作，其计算复杂度随着图像尺寸的增加呈平方级增长，难以满足实时性要求；且仅依赖首帧图像生成的模板是固定的，无法适应目标的外观变化，也无法区分物体本身和背景内容，容易跟丢也容易在背景杂乱时跟错。

为了解决上述问题，我们引入相关滤波（Correlation Filter）算法，其目标是学出一个滤波器，使其作用在原始图像后，在跟踪物体位置的响应最大。“相关”是一种运算，类似卷积，只不过卷积需要把 kernel 旋转 180°，相关不需要。利用卷积定理，可以将时域（或空域）中密集的滑动窗口匹配操作转化为频域中的逐元素乘法运算。通过 FFT 能够在一次计算中获得目标模板与搜索区域在所有可能偏移位置上的响应值，从而将复杂度从 $O(N^2)$ 降低到 $O(N \log N)$。

算法与实验

评估策略

采用 OTB2015 数据集作为测试基准。该数据集包含光照变化、尺度变化、遮挡、形变、运动模糊等多种场景，测试时在第一帧利用真值初始化跟踪器，随后在整个序列运行且不再进行重置。该方法可以有效测试算法的性能。

评估指标主要包含两项：距离精度（Precision @20px），即预测框中心点与 Ground Truth 框的中心点的欧氏距离在 20 像素之内的帧数占总帧数的比例；平均交并比（Average IoU），即预测框与真值框区域的交集与并集面积之比在整个序列的平均。

MOSSE

MOSSE (Minimum Output Sum of Squared Error filter) 算法的思路即找到一个滤波器，使得输入图像经过该滤波器作用后，输出的响应图与预设的响应图之间的误差最小。

用 $f$ 表示原始图像，$h$ 表示滤波器，于是输出图像 $g=fh$，记 $F=\mathcal{F}[f]$、$H=\mathcal{F}[h]$，运用卷积定理得 $$ G=F\odot H^ $$ 其中 $\odot$ 表示 Hadamard 积（逐元素相乘），$H^*$ 表示 $H$ 的复共轭，因为卷积需要把滤波器 $h$ 翻转 180°，而相关不用，这在 Fourier 变换中等价于在频域取共轭复数。

优化目标即为最小化误差矩阵： $$ H=\arg\min\limits_{H} \sum_i |F_i \odot H^* - G_i|^2 $$ 其中 $i$ 表示第 $i$ 帧，$G_i$ 表示频域的期望响应图，通常是“以跟踪目标为中心的 Gauss 函数”的频域图；期望响应图的 $\sigma$ 参数决定了峰值的尖锐程度，$\sigma$ 越大容错越高但精度越低，越小峰值越高（有助于在背景杂乱时更精确地定位目标中心）。逐元素考虑： $$ H_{uv}=\arg\min\limits_{H_{uv}} \sum_i |F_{iuv}H^{uv} - G{iuv}|^2 $$ 自变量为复数，故令共轭梯度为 0： $$ \begin{aligned} \frac{\partial L}{\partial H^{uv}}&=\frac{\partial }{\partial H^*{uv}}\sum_i\big((F_{iuv}H^{uv} - G{iuv})(F_{iuv}H^{uv} - G{iuv})^\big)\ &=\frac{\partial }{\partial H^{uv}}\sum_i\big((F{iuv}H^{uv} - G{iuv})(F^{iuv}H{uv} - G_{iuv}^)\big)\ &=\frac{\partial }{\partial H^{uv}}\sum_i\big(F{iuv}H_{uv}^F_{iuv}^H_{uv}-F_{iuv}H_{uv}^G^{iuv}- G{iuv}F^{iuv}H{uv}-G_{iuv}G_{iuv}^\big)\ &=\sum_i\big(F_{iuv}F_{iuv}^H_{uv}-F_{iuv}G^{iuv}\big)=0\ \end{aligned} $$ 解得 $$ H{uv}=\dfrac{\sum_iF_{iuv}G_{iuv}^}{\sum_iF_{iuv}F_{iuv}^} \quad\Rightarrow\quad H = \frac{\sum_i F_i \odot G_i^}{\sum_i F_i \odot F_i^} $$ 其中的除法为逐元素除法。

为了让模型适应目标的外观变化（例如旋转、光照、形变），应当对最近的帧赋予更大的权重，因此将上式的求和式改写为迭代形式，并引入指数移动平均： $$ \begin{aligned} H_i&=\frac{A_i}{B_i}\ A_i&=\eta F_i\odot G^i+(1-\eta)A{i-1}\ B_i&=\eta F_i\odot F^i+(1-\eta)B{i-1} \end{aligned} $$ 对于 $A$ 和 $B$ 初值的计算，算法会在选定跟踪对象后对目标图像进行随机的仿射变换，利用初始帧生成 $n$ 个样本，使用刚才非迭代的形式，算出稳定的初值 $A_0$ 和 $B_0$；$\eta$ 为学习率，$\eta$ 越小越看重最近的帧。

经过测试，当 $\eta=0.125$、$\sigma=2.0$、初始随机变换样本数 $n=128$ 时，跟踪效果较好，部分实验结果如下表所示（完整对比将在 [[#总结对比]] 中给出）

Coupon:        Precision @20px: 100.00% | Average IoU: 0.9125
Fish:          Precision @20px: 100.00% | Average IoU: 0.8309
Man:           Precision @20px: 100.00% | Average IoU: 0.8286
...
Dog:           Precision @20px:  99.21% | Average IoU: 0.3486
...
Freeman1:      Precision @20px:  48.47% | Average IoU: 0.2234
...
Gym:           Precision @20px:  32.59% | Average IoU: 0.2291
...
Human3:        Precision @20px:   0.53% | Average IoU: 0.0081

可以看出，MOSSE 在 Coupon、Fish、Man 等目标运动平稳、背景干扰较小的序列上取得了极高的精度，Precision 达到 100%，且 IoU 保持在 0.8 以上。这是因为设置了较低的 $\eta$，使得算法能够快速适应目标的轻微外观变化。

但当目标发生剧烈形变（如 Gym）、完全遮挡或背景极其杂乱（如 Freeman1）时跟踪丢失。其次，由于 MOSSE 没有对尺度进行估计，滤波器的大小是固定的，对于 Dog、Walking2 这类目标大小发生显著变化的序列，虽然中心位置预测准确，但预测框无法贴合目标大小，导致 IoU 值较低（如 Dog 序列 Precision 为 99.21% 但 IoU 仅为 0.3486）。事实上本次实验提到的三个算法都无法对尺度进行预测，因此 MOSSE 可以作为一个较好的 baseline。

【放图】

CSK

CSK (Circulant Structure Kernels) 引入了正则化和核方法，并引入了循环移位假设。

MOSSE 虽然能通过卷积提取到了目标位置的特征，但其本质是对“所有可能的候选框中的像素”做线性拟合得到一个响应值，决定这个位置“成为目标位置”的打分。但实际情况下，框选像素和打分之间往往是非线性的。

为了解决这个问题，我们引入核函数。但在这之前需要先将输入图像 $f$ 和目标响应 $g$ 拉直成向量后，然后才能通过一个映射函数 $\phi(\cdot)$ 投影到一个高维特征空间 $\cal{H}$，并在该空间中引入 $L_2$ 正则项训练一个权重向量 $w$： $$ w=\arg\min\limits_{w} \left(\sum_i | w^\mathrm{T}\phi(f_i) - g_i|^2 + \lambda |w|^2\right) $$ （这里没法像 mosse 一样直接写出频域表达式，因为引入了核函数，没法直观地写成卷积）

记 $\Phi=[\phi^\mathrm{T}(f_i)]$、$\mathcal{g}=[g_i]$，即 $\Phi$ 的第 $i$ 行是第 $i$ 个样本映射、$g$ 的第 $i$ 行是第 $i$ 个样本的目标响应，则上式写为 $$ w=\arg\min\limits_{w} \left(|\Phi w-g|^2 + \lambda |w|^2\right) $$ 令偏导等于 0 解得 $$ w = ({\Phi}^\mathrm{T} {\Phi} + \lambda {I})^{-1} {\Phi}^\mathrm{T} {g} $$ 但直接用这个式子计算不可行的，因为方阵 ${\Phi}^\mathrm{T} {\Phi}$ 边长为特征空间的维数 $\dim\cal{H}$，这个数可能非常大甚至是无穷大（例如 Gauss 核）。因此我们进行变形处理：

$$ \begin{aligned} w &= ({\Phi}^\mathrm{T} {\Phi} + \lambda {I})^{-1} {\Phi}^\mathrm{T} {g}\ &= {\Phi}^\mathrm{T} \underbrace{({\Phi} {\Phi}^\mathrm{T} + \lambda {I})^{-1} {g}}{\text{定义为列向量 } {\alpha}}\ &=\Phi^\mathrm{T}\alpha\ &=\sum\limits{i=1}^N\alpha_i\cdot\phi(f_i) \end{aligned} $$

其中第一步到第二步是 push-through 等式，它是 Woodbury 矩阵恒等式的推论： $$ (I+UV)^{-1}U=U(I+VU)^{-1} $$ 这样变形后，把方阵 ${\Phi}^\mathrm{T} {\Phi}$ 变成了 ${\Phi} {\Phi}^\mathrm{T}$，它的边长只是框选部分的像素数，相比升维后的特征空间维数就小了一些；另外，${\Phi} {\Phi}^\mathrm{T}$ 就是核矩阵 $\kappa=[k_{ij}]=[\langle \phi(k_i),,\phi(k_j)\rangle]$（也即特征空间中的 Gram 矩阵）。

而且，注意到 $\phi(f_i)$ 即特征向量，因此优化问题的解 $w$ 可以由特征向量 $\phi(f_i)$ 的线性组合表示（事实上，这个证明过程说明，任意一个 $L_2$ 正则化优化问题，其解都可以表示为特征向量的线性组合。这称为“表示定理 Representer Theorem”）。因此原始优化问题转化为求 $\alpha$，也就相当于 mosse 中的滤波器 $h$：

$$ \begin{aligned} J&=|\Phi w-g|^2 + \lambda |w|^2\ &=|\Phi\Phi^\mathrm{T}\alpha-g|+\lambda\alpha^\mathrm{T}\Phi\Phi^\mathrm{T}\alpha^\mathrm{T}\ &=|\kappa\alpha-g|^2+\lambda\alpha^\mathrm{T}\kappa\alpha \end{aligned} $$

令偏导等于 0 解得 $$ {\alpha} = ({\kappa} + \lambda {I})^{-1} {g} $$ 但这仍然涉及到对一个很大的核矩阵求逆，难以实现实时跟踪。于是下面就是利用 FFT 将这个过程变为频域上的逐元素相乘。

注意到，对于连续视频的图像序列而言，训练样本 $f_i$ 可以看做是上一帧图像 $f_{i-1}$ 经过循环移位生成的，对于还原为矩阵形式的图像而言，就是移出画面的像素从另一侧回到画面。这个假设的优点在于，当图像具有循环移位性质时，特征空间的内积只依赖于两个样本 index 之差；这反映在核矩阵 $\kappa$ 上，就是主对角线方向上的值都相同，这称为循环矩阵。循环矩阵有一个很好的性质，它可以被 DFT 矩阵对角化，也即 $$ \kappa = F^{-1} \text{diag}(\hat{k}) F $$ 其中 $F$ 是 DFT 矩阵，$\hat{k}$ 是核矩阵第一行向量 $k$（即基准图像 $f$ 与其自身所有移位样本的核相关向量）的 Fourier 变换。利用这一性质，代入 $\alpha$ 的解，即可将矩阵求逆运算转化为频域中的逐元素运算： $$ \begin{aligned} \alpha &= (F^{-1} \text{diag}(\hat{k}) F + \lambda I)^{-1} g \ &= (F^{-1} \text{diag}(\hat{k}) F + F^{-1} (\lambda I) F)^{-1} g \ &= (F^{-1} (\text{diag}(\hat{k}) + \lambda I) F)^{-1} g \ &= F^{-1} (\text{diag}(\hat{k}) + \lambda I)^{-1} F g \end{aligned} $$

两边同时做 Fourier 变换（即左乘 $F$），记 $A=\mathcal{F}[\alpha]$、$G=\mathcal{F}[g]$，于是

$$ \begin{aligned} Fa&=(\text{diag}(\hat{k}) + \lambda I)^{-1} F g\ A&=\text{diag}\left(\frac{1}{\hat k_i+\lambda}\right)G\ &=\dfrac{G}{\hat k+\lambda} \end{aligned} $$

其中最后一行的除法是逐元素除法。这样就实现了从空间域到频域的转换，与 mosse 的复杂度同阶。

部分实验结果

Man:           Precision @20px: 100.00% | Average IoU: 0.9022
BlurFace:      Precision @20px: 100.00% | Average IoU: 0.8295
...
BlurCar4:      Precision @20px:  99.47% | Average IoU: 0.8339
...
Surfer:        Precision @20px:  92.02% | Average IoU: 0.4434
...
Dog1:          Precision @20px:  98.22% | Average IoU: 0.5533
...
Freeman1:      Precision @20px:  36.81% | Average IoU: 0.2073
...
Jogging:       Precision @20px:  23.13% | Average IoU: 0.1850
...
Human3:        Precision @20px:   1.12% | Average IoU: 0.0094

分析实验结果可以发现，CSK 相比 MOSSE 在整体鲁棒性上有了显著提升，特别是在处理非线性可分场景和模糊图像时表现突出。

对复杂背景的区分能力增强。在 Surfer 序列中，MOSSE 仅有 3.99% 的精度，几乎完全失效，而 CSK 跃升至 92.02%。这是因为冲浪场景中背景（浪花）与目标（冲浪者）的灰度特征极度相似且杂乱，MOSSE 的线性分类器无法找到分割超平面，而 CSK 通过高斯核将特征映射到高维空间，成功实现了非线性分离。
对运动模糊的鲁棒性提升。在 BlurFace（20.69% $\to$ 100%）和 BlurCar4（51.84% $\to$ 99.47%）等包含剧烈画面摇晃模糊的序列中，CSK 表现很好。这主要是因为目标函数中引入的 $L_2$ 正则化项，有效抑制了图像噪声和模糊带来的高频干扰。
局限性依然存在：尽管引入了核方法，CSK 依然依赖单通道灰度特征。因此在 Freeman1（人脸旋转，36.81%）和 Jogging（形变与遮挡，23.13%）序列中，由于目标外观结构发生变化导致像素灰度分布改变，CSK 依然无法有效跟踪。此外，与 MOSSE 一样，CSK 缺乏尺度估计机制，导致在 Dog1 等尺度变化序列上，虽然 Precision 高达 98.22%，但 Average IoU 仅为 0.5533，预测框无法贴合目标大小。

【更新中】

代码

代码已上传至 GitHub：
https://github.com/Dingnuooo/course-ComputerVision/tree/main/track

基于 Laplacian Pyramid 的图像融合

Sun, 09 Nov 2025 00:00:00 GMT

1 动机与方法

下面以“融合苹果和橘子两张图片”这一任务为例，阐述 Laplacian Pyramid 的基本思路与方法。

1.1 Alpha 混合及其问题

一种基础的图像融合方式是 Alpha 混合。该方法通过一张 mask（掩膜）确定每个像素的融合程度。对于待融合的图像 a 和 b，融合后图像 c 上的每个像素的色值由下式决定： $$ c = a \cdot m + b \cdot (1-m) $$ 其中，$a$ 和 $b$ 是图像在对应像素点的色值；$m$ 是 mask 在对应像素点的明度，取值范围为 $[0,1]$。例如，使用一个左半边为白色（$m=1$）、右半边为黑色（$m=0$）的硬 mask 进行融合，效果等同于将 a 图的左半边和 b 图的右半边直接拼接，在连接处会产生明显的接缝。

因此需要先对硬 mask 进行模糊处理，使其在黑白边界处形成一个平滑的过渡带。一种常见的方法称为 Gauss 模糊，即进行反射 padding 后与 Gauss kernel 做卷积。Gauss kernel 定义为： $$ k(x,y)=\frac{1}{Z}\exp\left(-\frac{x^2+y^2}{2\sigma^2}\right) $$ 其中，$Z$ 为归一化系数，保证所有卷积后图像能量不变。$\sigma$ 的取值需要适中，若 $\sigma$ 过小，会使 kernel 边缘处的值产生截断；若 $\sigma$ 过大，又会使得边缘处的值接近 0 导致计算时间的浪费。在 OpenCV 中，$\sigma$ 的取值为 $$ \sigma=0.3\left(\dfrac{n-1}{2}-1\right)+0.8 $$ 其中 $n$ 是 Gauss kernel 的边长。计算可得，当 $n$ 足够大时，该 $\sigma$ 恰好使得 kernel 边缘处的值约为中心值的 1/255，即 uint8 所能表示的最小亮度，消除截断效应的同时最大限度减少计算浪费。

Gauss 模糊可以使得图像变得平滑，因此将硬 mask 进行 Gauss 模糊后，将得到带有过渡效果的软 mask。此时再进行 Alpha 混合，就可以获得较好的融合效果。kernel 越大，mask 的模糊程度越高，接缝处的过渡越自然，如图所示。

但这种方法存在两方面的局限性。

第一，Gauss 卷积的时间复杂度与 kernel 直径的平方成正比，为了获得足够平滑的过渡带，需要使用一个尺寸很大的 Gauss kernel，计算非常耗时。
第二，Gauss kernel 越大，过渡带越宽，虽然使得颜色过渡更自然，但在分界线两侧的纹理过度混合，也即无论对于图像中的低频区域还是复杂纹理，都使用相同的过渡宽度来混合，导致连接处的纹理扩散（例如直径为 729 的 kernel 下，左半部分出现了较为明显的橘子纹理，而右半的部分橘子纹理又被苹果的平滑纹理所稀释）。

1.2 Laplacian Pyramid

针对问题一，一个直观的想法是，“增大 kernel 直径”可以通过“减小图片本身的尺寸”来近似。也即，大尺寸卷积核对原图进行卷积，可以近似为小尺寸卷积核对缩小后的图像进行卷积。而 Gaussian Pyramid 就是一种表示多尺度图像的方式，其构建过程包括两个基本操作：

下采样：首先对当前层级的图像进行 Gauss 模糊，然后移除所有的偶数行和偶数列，得到尺寸为原来 1/4 的小图像。
上采样：首先将图像的每个像素都扩大为原来的 4 倍，为新像素（奇数行和奇数列）填充 0，随后使用一个 4 倍值的 Gauss kernel 进行卷积，以对新像素进行插值。4 倍是为了补偿因插入大量 0 值而导致的亮度损失，从而维持图像的整体能量。

通过构建 Gaussian Pyramid，可以将大尺寸卷积核的卷积，转化为在不同尺度下使用小尺寸卷积核进行卷积，并上采样为原分辨率，有效降低了计算复杂度。

然而，Gaussian Pyramid 的下采样过程会丢失图像的高频细节信息，导致仅通过上采样无法完美重建原图。为了解决信息丢失的问题，Burt 和 Adelson 于 1983 年提出了 Laplacian Pyramid。 Laplacian Pyramid 的第 $i$ 层 $L_i$ 记录了对应层级 Gaussian Pyramid 图像与其上采样版本之间的差（也即丢失的高频细节信息），即 $$ L_i = G_i - \text{Expand}(G_{i+1}) $$

其中，$G_i$ 是 Gaussian Pyramid 的第 $i$ 层图像，$\text{Expand}(G_{i+1})$ 是对更高一层图像 $G_{i+1}$ 进行上采样后的结果。若定义 Laplacian Pyramid 的最顶层为 Gaussian Pyramid 的最顶层，则只需要通过不断将高频信息叠加到上低频的底图中，也即 $$ \begin{aligned} G_n&=L_n\ G_{n-1} &= L_{n-1}+\text{Expand}(G_{n})\ G_{n-2} &= L_{n-2}+\text{Expand}(G_{n-1})\ &\cdots \ G_1&=L_1+\text{Expand}(G_2)\ G_0&=L_0+\text{Expand}(G_1)\ \end{aligned} $$ 从而无损地从 Laplacian Pyramid 中重建出原始图像。因此，Laplacian Pyramid 实质上就是将图像分解为低频部分和高频部分，顶层为最低频的底图，往下每一层代表了不同尺度下的高频信息。

1.3 基于 Laplacian Pyramid 的融合

利用 Laplacian Pyramid 对图片进行的频域分解，可以解决问题二中纹理扩散的问题。只需要对不同频段分别进行不同程度的融合，对高频信息（边缘与纹理）使用较硬的 mask 进行融合以防止纹理扩散，对低频信息（颜色与光照）使用较软的 mask 进行融合以实现平滑过渡，即可实现高质量的图像融合。具体步骤如下：

为待融合的两个源图像（苹果 A 和橘子 B）分别构建 Laplacian Pyramid $LA$ 和 $LB$，将图像分解为低频底图 + 不同尺度的高频信息；由于原图分辨率为 512x512，需要构建 $\log_{2}512+1=10$ 层金字塔。
为 mask 构建一个 Gaussian Pyramid $GM$，提供不同尺度下的平滑表示。
构建融合后的 Laplacian Pyramid $LS$：对于第 $i$ 层，使用对应层级的 mask $GR_i$ 作为权重，对 $LA_i$ 和 $LB_i$ 进行 Alpha 混合： $$ LS_i = GM_i \cdot LA_i + (1 - GM_i) \cdot LB_i $$
利用融合后的 Laplacian Pyramid $LS$ 重建最终的图像：从最顶层开始，逐层进行上采样并加上当前层的 Laplacian 细节，直至恢复到原始分辨率，得到最终的无缝融合图像。

2 实验与结果分析

依据上述原理编写程序，尝试不同 kernel 直径下生成的 Gauss Pyramid、Laplacian Pyramid 以及最终的融合图像。其中，为了便于观察，Laplacian Pyramid 在展示时，其像素值均取绝对值并统一放大 4 倍；同时，所有图像的像素值在生成后都需 clip 到 [0, 255]，以防止像素值循环溢出。取 kernel 直径为 3、5、9、27，生成的金字塔以及融合结果如下：

kernel 直径 = 3：

kernel 直径 = 5：

kernel 直径 = 9：

kernel 直径 = 27：

融合结果（从左到右 kernel 直径依次为 3、5、9、27）：

对比不同 kernel 尺寸生成的金字塔可知，kernel 对金字塔的分解效果有显著影响。kernel 直径越大，其低通滤波效应越强，导致在构建高斯金字塔的每一层时，图像的模糊程度也越高。这反映在拉普拉斯金字塔上，就是各层所分离出的频率带信息更加平滑，尤其是在低频分量中。另外，当 kernel 直径增大至 27 时，从高斯金字塔的第 8 层开始，图像已收敛为一个恒定色值的区域，所有像素的色值都已相等。这表明在该尺度下，图像的所有细节信息均已被平滑掉，因此不必继续增大 kernel 直径。

对比不同 kernel 尺寸得到的融合图像可知，不论是大尺寸 kernel 还是小尺寸 kernel，其表现几乎一致，苹果和橘子的分界线完全消失，过渡区域的色彩与纹理融合自然，没有出现可察觉的失真或纹理溢出现象。这表明基于 Laplacian Pyramid 的图像融合方法实现了在不同频率尺度上分别进行融合的功能，能够在实现低频分量相融的同时，有效保护高频分量的信息。

除了苹果橘子的经典例图，本次实验还尝试了对两张实拍照片的融合，将一张图片的天空部分换成另一张图片。其中 mask 是通过手动绘制遮罩实现的。除了由于精度不足导致对树枝等细节处的抠图不够精细，其他部分能够较好的融合，特别是交界处并没有产生纹理扩散，如图所示。

实拍原图：（图一摄于上海方浜中路附近；图二摄于北京理工大学珠海校区）

3 实验代码

代码已上传至 GitHub：
https://github.com/Dingnuooo/course-ComputerVision/tree/main/blend

数电期末小抄 - 触发器

Fri, 03 Jan 2025 00:00:00 GMT

能够存储 1 位二进制数字信号的基本单元电路称为触发器

按逻辑功能分类

RS
JK
D
T 或 T'
（基本 RS 不算）

按结构分类

基本 RS 触发器
同步触发器
主从触发器
边沿触发器

基本 RS 触发器

两个与非门首尾相连或交叉耦合

电路图

定义不同输入组合的状态名称

0 状态：$Q=0$，$\overline Q=1$
1 状态：$Q=1$，$\overline Q=0$
$\overline {S_D}$ 直接置 1 端，低电平有效。右下角的 D 表示 Directly，后面会说为什么
$\overline {R_D}$ 直接置 0 端，低电平有效

对应这些功能

置 1 功能：$\overline {S_D}=0$，$\overline {R_D}=1$，这样就存了一个 1（指的是 $Q=1$）
置 0 功能：$\overline {S_D}=1$，$\overline {R_D}=0$，这样就存了一个 0
保持功能：$\overline {S_D}=1$，$\overline {R_D}=1$，由于两个都是低电平有效，此时两个都是无效的。此时状态保持住，数据记忆了。我们记触发器接收信号之前所处的状态称为初态，符号 $Q^n$；接收信号之后建立的新状态叫做次态，符号 $Q^{n+1}$。次态不仅和输入信号有关，还和次态有关。
无意义状态：$\overline {S_D}=0$，$\overline {R_D}=0$，此时 $Q$ 和 $\overline Q$ 都是 1，就错误了。见下图的阴影部分，当出现无意义状态后来了一个保持状态，整个系统就无序了。所以说并不是无意义状态下出现随机，而是无意义之后如果来了一个保持，系统就会在 0 和 1 之间反复横跳

描述触发器功能的方法

波形图
特性表
表达式（特性方程）：$Q^{n+1}=S_D+\overline {R_D}Q^n$，约束条件 $R_DS_D=0$（即 RS 不能同时为 1，否则进入无意义状态）。写表达式的方法就是真值表到表达式的方法，只要把 $Q^n$ 当作一个单独的符号即可

或非门也可以构成 RS 触发器

同步 RS 触发器

实践中通常会用很多触发器。为了避免触发器之间相互影响，我们希望这些触发器有一个统一的时刻表、一令一动，即只有在公共同步信号到达的时候，才根据输入信号改变输出状态。称这个同步信号叫做时钟脉冲信号，简称时钟(Clock Pulse，CP)。这么做可能会降低速度，但是只要我时钟足够快就可以。计算机芯片主频越做越快就是提高效率用的（提一嘴，注意 CP 和 CR 的区分，CP 是时钟，CR 是 clear 的缩写，是清空或者复位的）

右边两个是一个基本 RS 触发器，左边两个是输入控制电路

$\overline{S_D}$ 和 $\overline{R_D}$ 称为异步输入信号，$S$ 和 $R$ 称为同步输入信号。以后我们管在时钟控制下的信号叫同步信号，和时钟没关系的叫异步信号。$S$ 和 $R$ 高电平有效，$\overline{S_D}$ 和 $\overline{R_D}$ 低电平有效

看看工作原理

先考虑同步工作时候。令 $\overline{S_D}=1$、$\overline{R_D}=1$，两个都无效，处于保持状态。如果 $CP=0$，左边两个与非门都被封锁，不管 $R$、$S$ 输入什么信号，左边两个门的输出都是 1，将触发器置于保持状态；如果 $CP=1$，左侧门导通，$R$、$S$ 经过反向后进入触发器，就和之前一样了。分类如下

$S=R=0\ \ \ \Rightarrow Q^{n+1}=Q^n$
$S=1,R=0\Rightarrow Q^{n+1}=1$
$S=0,R=1\Rightarrow Q^{n+1}=0$
$S=R=1\ \ \ \Rightarrow$ 无意义，禁止出现

发现这与或非门构成的基本 RS 触发器是一致的

表达式 $Q^{n+1}=S+\overline RQ^n$，约束条件 $SR=0$

这里解释一下 Directly 的意思，因为 $\overline{R_D}$ 和 $\overline{S_D}$ 这两个端可以直接对触发器进行更改，而不受到时钟信号的限制，可以随时预置（预置后应该使得异步端处于无效状态）

主从触发器

刚才说使用同步的目的就是希望一令一动。如果在 $CP=1$ 时输入信号发生多次变化，那么触发器的状态也会发生多次翻转，称为空翻。为了尽可能减少空翻现象，发明了主从型、边沿型等形式的触发器

主从型，符号上面有一个直角标记。注意！！！！符号图有错误！！！符号那里 CP 前面有一个圈！！！！有圈表示下降沿触发！！！没圈表示上升沿触发！！！

工作原理：$CP=1$ 时，主触发器根据 S、R 的状态翻转，从触发器处于保持状态。CP 回到 0 时，主触发器处于保持状态，CP 经过反向器接到从触发器，此时从触发器被打开，并按照与主触发器的输出进行翻转。即 $CP=1$ 时候设定 S、R 的信号但不产生效果，直到 CP 下降沿时才按照设定的信号产生效果，这个效果的表达式与基本 RS 触发器是一致的，即把 $Q'$ 的信号直接传过来

JK 触发器

为了解决 $S=R=1$ 无意义状态的问题，发明了 JK 触发器。JK 是两个人名的缩写。对应关系：J 和之前的 S 对应，K 和之前的 R 对应。记忆方法：把 R 的上半部分折起来，看起来和把 K 上半部分遮起来一模一样，同理 J 和 S 也是

CP=1 时，主触发器根据 JK 状态而动作，从触发器处于保持状态；CP=0 时，从触发器根据主触发器的状态进行输出。对于 $JK=0$ 的输入组合，这些和之前都是一样的。

当 $J=K=1$ 的时候，出现无意义状态，即当 CP 下降沿的时候电路变得随机。但不论怎么随机，要么 Q=0 要么 Q=1，分类讨论一下。发现当 $Q=0$ 的时候，推导完得 $Q=1$；当 $Q=1$ 的时候，推导完得 $Q=0$。于是得出结论：$J=K=1\ \Rightarrow Q^{n+1}=\overline {Q^n}$

完整列表：

$J=0,K=0\ \Rightarrow Q^{n+1}=Q^n$
$J=1,K=0\ \Rightarrow Q^{n+1}=1$
$J=0,K=1\ \Rightarrow Q^{n+1}=0$
$J=1,K=1\ \Rightarrow Q^{n+1}=\overline {Q^n}$
特性方程 $Q^{n+1}=J\overline{Q^n}+\overline KQ^n$

上面说的功能，有一个基本前提：CP=1 时 J 与 K 不发生变化。如果 J、K 在 CP=1 时发生了变化，则不能直接根据 CP 下降沿前的 JK 状态判断 Q 的变化。因为 CP=1 时，主触发器的左侧两个门总会有一个是被封锁的，只能接受没被封锁的那个门的信号。见下图

边沿触发器

进一步优化，把 CP=1 时输入状态可能发生的变化也优化掉。我们不用 CP=1 这么长一段时间，只用 CP 的上升或者下降时刻输入信号的状态，而其他时候输入信号的任何变化都不会影响触发器的次态。电路图比较复杂，也不考。只要知道符号表达即可。

对于边沿触发器，CP 里面有一个小三角。如果 CP 外面没有圆圈，说明是上升沿触发；如果 CP 外面有圆圈，说明是下降沿触发

T 触发器与 D 触发器

描述功能的方法：特性表、状态转换图、特性方程

所谓什么 RS、什么 JK，它是描述功能的名词，而不是描述电路的名词。就像 RS 触发器既可以用与非门又可以用或非门，只要是实现对应功能的电路，都能叫某某触发器。

下面补充几个触发器类型

D 触发器：输入什么我就记忆什么。例如下图中，当 CP 上升沿的时候，输入是什么输出就是什么，相当于导线，只是它有记忆功能。

T 触发器：当触发器有效时，$T=0$ 时保持，$T=1$ 时翻转 T' 触发器：让 T 触发器的输入端接 1。例如图中，每来一个上升沿就翻转。这个东西可以作为计数器的最低位。特性方程 $Q^{n+1}=\overline{Q^n}$

触发器功能转换

用一个已有触发器，加一个转换电路变成一个新的触发器。其实前面从基本 RS 到同步 RS 再到同步 JK，就是功能转换的一个例子

基本方法：已有触发器的特性方程和待实现触发器特性方程联立，把已有触发器的输入用待实现触发器的输入表示。

D 触发器转 JK 触发器

D 触发器转 T 触发器

D 触发器转 T' 触发器

JK 触发器转 D 触发器，这里有一个拆项，把 $D$ 拆成 $DQ^n+D\overline{Q^n}$，和 JK 特性方程一一对应

JK 触发器转 T 触发器（T' 也可以，看右图）。

数电期末小抄 - 脉冲波形的产生与整形

Fri, 03 Jan 2025 00:00:00 GMT

下图中，左上角是 555 定时器本体。右上角是施密特触发器，左下角是单稳态触发器，右下角是多谐振荡器。这一章就围绕这几个东西展开。

产生矩形脉冲的方法：各种形式的多谐振荡器波形变换电路：比较器、施密特触发器

集成 555 定时器。长这样。三个电阻 R，是电阻分压器。两个比较器（开环的运放）。右边是 RS 锁存器。左下角是一个开关三极管，基极高电平导通，低电平截止。最右侧反向器充当输出缓冲功能

CO 不是进位输出，是 control 的意思。
- CO 端没有外加电压（即通过小电容接地，通常是 $0.01\ \mu\text{F}$）时，$V_{R1}=\dfrac23V_{CC}$，$V_{R2}=\dfrac13V_{CC}$
- CO 端外加电压时，$V_{R1}=V_{CO}$，$V_{R2}=\dfrac12V_{CO}$
开环的运放叫做电压比较器，当 $V_+>V_-$ 时输出正电压，$V_+<V_-$ 时输出负电压，电压绝对值即运放供电电压最大值。一般不会相等，因为灵敏度很高基本不可能稳定相等
RS 锁存器，低电平有效。即比较器结果决定输出状态
开关三极管，当 $Q=1$ 时 $G_3$ 输出低电平，$V_O$ 低电平，三极管截止；当 $Q=0$ 时 $G_3$ 输出高电平，$V_O$ 高电平，三极管导通

综上可以给出的工作状态总结表

| $V_{TH}$ | $V_{\overline{TR}}$ | $\overline{CR}$ | $V_O$ | 三极管 | 工作状态 | | :-------: | :-----------------: | :-------------: | :---: | :-: | :--: | | $\phi$ | $\phi$ | 0 | 0 | 导通 | 清零 | | $>V_{R1}$ | $>V_{R2}$ | 1 | 0 | 导通 | 置 0 | | $<V_{R1}$ | $>V_{R2}$ | 1 | 原状态 | 原状态 | 保持 | | $\phi$ | $<V_{R2}$ | 1 | 1 | 截止 | 置 1 |

施密特触发器，两个稳定状态

施密特触发器：有两个稳定的输出状态（高/低电平），状态的维持与转化均与输入电压有关。两个阈值电压 $V_{T+}>V_{T-}$，他就是拿来整形的，把边沿变得陡峭。

施密特触发器传输特性当输入电压增加到上限阈值时，输出翻转；当输入电压下降到上限阈值时，输出不翻转，只有小到下限阈值时才翻转。此为滞回特性。当输入小、输出小时称为同相型，当输入小、输出大时称为反相型。如果只有一个阈值，那么当数值在阈值附近波动时状态会反复切换。所以才引入了两个阈值，构造滞回区间，增加稳定性。回差电压 $\Delta V=V_{T+}-V_{T-}$

555 定时器构成施密特触发器的方法：把 $TH$ 和 $\overline{TR}$ 接一起，外接输入电压。实现滞回的，就是 RS 的保持状态。这样构成的是一个反相型施密特触发器。

输入电压增大的过程：
- 当 $V_I<V_{R2}$ 时，输出电压为高电平
- 当 $V_{R1}<V_I<V_{R2}$，输出电压保持刚才的高电平状态
- 当 $V_I>V_{R1}$ 时，输出电压变成低电平。
输入电压减小的过程：
- 当 $V_I>V_{R1}$ 时，输出电压为低电平
- 当 $V_{R1}<V_I<V_{R2}$，输出电压保持刚才的低电平状态
- 当 $V_I<V_{R2}$ 时，输出电压变为高电平

阈值电压 $V_{T+}=V_{R1},\ \ \ V_{T-}=V_{R2}$ 回差电压 $\Delta V=V_{T+}-V_{T-}=V_{R1}-V_{R2}$

施密特触发器的三个功能。

波形变换
整形，即消除畸变
鉴幅，即选出高于某电压的脉冲，其他的都洗掉

我们说，某某类型的触发器，只代表电路的功能。所以施密特触发器也是可以使用其他方式实现的。

单稳态触发器，一个稳定一个暂态

单稳态触发器只有一个稳态。在外加触发脉冲的作用下，电路进入暂态，经过一段时间后自动返回稳态。这段时间是一个固定的值，只取决于电路的参数，与外加触发脉冲的宽度无关。

用 555 定时器构成单稳态触发器

左边的 RC 就是定时用的。$V_{TH}$ 就是电容的充电电压。负触发脉冲到来之前，低触发端处于高电平，锁存器输出状态保持低电平（稳态），$V_O$ 输出低电平，三极管导通，相当于电容两端都接地，电容短路掉，什么都不会发生。
负脉冲来了，$V_{TR}$ 减小，S 端有效，锁存器变高电平，$V_O$ 输出高电平，三极管截止，VCC 开始给电容充电。充电过程，TH 的电压逐渐增大，直到增大到 $\dfrac23V_{CC}$ 时，R 端有效，锁存器变低电平，$V_O$ 输出低电平，三极管导通，电容放电，回到上一点。而 RC 充电过程时间是确定的。根据电路分析知识可得 $t_w=\tau\ln\dfrac{u(\infty)-u(0)}{u(\infty)-u(t_w)}$，代入 $u(\infty)=V_{CC}$ 得 $t_w=1.1RC$

注意：

输出脉冲宽度与输入脉冲无关，但输入脉冲不能太宽，否则充完电后还有负脉冲，导致充电超过三分之二
输入脉冲间隔不能太小，因为电容放电也需要时间，要等电容放完电才能来下一个脉冲

同样，单稳态触发器作为一种功能触发器，也可以有其他实现方式。下面这个电路便是一个。没有 RC 的时候存在竞争冒险，会有一个信号快一些。而“快一些”本身就是一种暂态，使用 RC 将这个暂态的时间延长，也可以实现控制脉冲宽度

多谐振荡器，两个暂态

输出有两个暂态，不需要外部信号，就能在两个暂态之间连续交替转换，产生矩形脉冲信号。

用 555 定时器构成多谐振荡器（红色的电阻是 $R_2$）。其实是一个施密特触发器和两组 RC

充电是 $(R_1+R_2)C$，放电是 $R_2C$（通过 $R_1$ 和 $R_2$ 之间的钮流到 $D$）因此由电分知识有

$T_1=(R_1+R_2)C\ln 2$
$T_2=R_2C\ln2$
$T=T_1+T_2=(R_!+2R_2)C\ln2$
占空比 $q=\dfrac{T_1}{T}=\dfrac{R_1+R_2}{R_1+2R_2}$，可知占空比始终大于 50%

占空比可调且可以调到比 50% 小：如图，充电时候经过二极管 1 和 $R_1C$，放电时候经过二极管 2 和 $R_2C$，占空比 $q=\dfrac{R_1}{R_1+R_2}$

施密特触发器可以构成多谐振荡器

门电路可以构成多谐振荡器，利用的是反向器的延时。注意要用奇数个反向器才行。同样使用 RC 延长这段时间差。这叫做环形振荡器。最下面的是实用环形振荡器

对称式多谢振荡器可以产生方波。当然还有非对称

石英晶体的特征：当外加信号频率等于石英晶体的固有频率（$32768\text{ Hz}=2^{15}$，可以用分频电路整出秒脉冲）一致时，等效阻抗最小且为纯电阻，信号最容易通过。利用 TTL 非门与石英晶体构成多谐振荡器。改进：可控

机器学习 - 概率无向图模型

Wed, 15 Oct 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

概率无向图模型，aka Markov 随机场（Markov Random Field）

无向图的因子分解

有向图中我们分析了独立性，无向图这里也需要。有三种等价表示

局部 Markov 性：若某个顶点的所有邻居都已知（也即被观测），那么它与其他顶点条件独立
成对 Markov 性：若两个顶点之间没有直接相连，那么当其他所有顶点都已知时，这两个顶点条件独立
全局 Markov 性：若两个点集之间的通路都必须经过某个第三点集，那么当第三点集已知时，这两个点集之间条件独立

如果两个顶点被观测顶点分割的情况下条件独立，则这个无向图就称为 Markov 随机场

分析概率无向图时同样要做因子分解，但“无向”写不出有向图那样的依赖关系，因此需要使用最大团来做因子分解。备忘：团 (clique) 又称完全子图，即其中的任意两个顶点都有边连接。“最大团”即包含顶点数最多的团。

势函数

其中 $C$ 为 $G$ 的所有最大团（因为可能不止一个最大团），$\varphi$ 为定义在最大团上的非负函数（称为势函数），$Z$ 为归一化系数 $$ Z=\sum\limits_{x_G}\prod_{C}\varphi_C(X_C=x_C) $$

这个分布也叫做 Gibbs 分布。

特别地，如果定义势函数 $\varphi_C(X_C)=\exp(-E_C(X_C))$，则称为 Boltzmann 分布，其中 $E$ 表示能量。

势函数求 Gibbs 分布例题

例题。总统大选中，共有懂王、拜登两位候选人。有 ABCD 四个人，他们四个人的关系网如下，连线表示两个人的投票倾向之间存在相互影响：

图中总共有四个团：AB、BC、CD、DA，都含有两个顶点，因此都是最大团。在这四个最大团上，定义相互影响的势函数为：

| $\varphi_1(A,B)$ | $\varphi_2(B,C)$ | $\varphi_3(C,D)$ | $\varphi_4(D,A)$ | | --------------------------- | ----------------------- | ----------------------- | ----------------------- | | $a^0\quad b^0\quad 30\quad$ | $b^0\quad c^0\quad 100\quad$ | $c^0\quad d^0\quad 1\quad$ | $d^0\quad a^0\quad 100$ | | $a^0\quad b^1\quad 5\quad$ | $b^0\quad c^1\quad 1\quad$ | $c^0\quad d^1\quad 100\quad$ | $d^0\quad a^1\quad 1$ | | $a^1\quad b^0\quad 1\quad$ | $b^1\quad c^0\quad 1\quad$ | $c^1\quad d^0\quad 100\quad$ | $d^1\quad a^0\quad 1$ | | $a^1\quad b^1\quad 10\quad$ | $b^1\quad c^1\quad 100\quad$ | $c^1\quad d^1\quad 1\quad$ | $d^1\quad a^1\quad 100$ |

其中，事件“A 投懂王”为 $A=a^0$，“A 投拜登”为 $A=a^1$，其他类推。

势函数表反映了两人之间具体的影响关系。例如可以看出，BC、DA 很可能投同一个人，而 CD 很可能投不同的人。

于是 Gibbs 分布可以由下表计算得到。Gibbs 分布即归一化的势函数积，归一化系数就是中间那一列全部加起来

| $a\ b\ c\ d$ | 势函数积 | Gibbs 分布 | | ------------ | ---------------------------------------- | :------: | | $0\ 0\ 0\ 0$ | $30\times100\times1\times100 = 300000$ | 0.0417 | | $0\ 0\ 0\ 1$ | $30\times100\times100\times1 = 300000$ | 0.0417 | | $0\ 0\ 1\ 0$ | $30\times1\times100\times100 = 300000$ | 0.0417 | | $0\ 0\ 1\ 1$ | $30\times1\times1\times1 = 30$ | 0.0000 | | $0\ 1\ 0\ 0$ | $5\times1\times1\times100 = 500$ | 0.0001 | | $0\ 1\ 0\ 1$ | $5\times1\times100\times1 = 500$ | 0.0001 | | $0\ 1\ 1\ 0$ | $5\times100\times100\times100 = 5000000$ | 0.6943 | | $0\ 1\ 1\ 1$ | $5\times100\times1\times1 = 500$ | 0.0001 | | $1\ 0\ 0\ 0$ | $1\times100\times1\times1 = 100$ | 0.0000 | | $1\ 0\ 0\ 1$ | $1\times100\times100\times100 = 1000000$ | 0.1389 | | $1\ 0\ 1\ 0$ | $1\times1\times100\times1 = 100$ | 0.0000 | | $1\ 0\ 1\ 1$ | $1\times1\times1\times100 = 100$ | 0.0000 | | $1\ 1\ 0\ 0$ | $10\times1\times1\times1 = 10$ | 0.0000 | | $1\ 1\ 0\ 1$ | $10\times1\times100\times100 = 100000$ | 0.0139 | | $1\ 1\ 1\ 0$ | $10\times100\times100\times1 = 100000$ | 0.0139 | | $1\ 1\ 1\ 1$ | $10\times100\times1\times100 = 100000$ | 0.0139 |

这就求出了联合分布。

从联合分布中可以得出边缘分布。例如我们求 AB 的边缘分布：

| $a\ b$ | $\phi_1$ | 归一化 $\phi_1$ | 联合分布中的 $P(a,b)$ | | ------ | ------ | ---------- | ------------- | | $0\ 0$ | 30 | 0.6522 | 0.1250 | | $0\ 1$ | 5 | 0.1087 | 0.6944 | | $1\ 0$ | 1 | 0.0217 | 0.1389 | | $1\ 1$ | 10 | 0.2174 | 0.0417 |

可以看出，全局联系改变了 AB 之间单独的关系。细究起来，这种变化主要来源于 CD 之间的强烈不一致性。

下面讲 3 个常用的概率无向图模型

logistic 回归模型

说是回归，但其实是基于回归的分类模型。本章我们先用一般流程在二分类上做说明，再阐述多分类问题，以及它与概率无向图的关系

二分类与sigmoid

基本推导

传统的线性回归做分类，就是把正类样本设标签 $y=1$，负类样本设标签 $y=0$，然后得出线性拟合函数 $z=w^\mathrm{T}x$（偏置项通过 $b=[{w^{(0)}}]^\mathrm{T}x^{(0)}$ 塞进 $w^\mathrm{T}x$ 中）；对于测试样本，若拟合值大于某个值（比如 0.5），就分为正类，否则分为负类，这样就分出来了。这本质上是一个分段判别函数： $$ y=\begin{cases} 1,&z>0.5\ 0,&z\leq 0.5 \end{cases} $$ 它不连续，不可导。而 logistic 回归做分类，就是在传统的线性回归当中，加入了一个性质足够好判别函数。sigmoid 函数（aka logistic 函数）就是一个不错的选择： $$ y=\sigma(z)=\dfrac{1}{1+\mathrm{e}^{-z}} $$

它单增、任意阶可导，关于点 $(0,\ 0.5)$ 对称；另外，sigmoid 相当于一个 $\mathbb{R}\to [0,1]$ 的映射，或者说把实数轴映射成概率。于是 sigmoid 的结果便可以解释为：回归出来的数越大，分类为正类的概率就越大。

将样本 $x_{i}$ 分类为正类的概率记为 $p_i$，即 $$ p_i=\sigma(w^\mathrm{T}x_i)=\dfrac{1}{1+\exp(-w^\mathrm{T}x_i)} $$

于是该样本分类正确的概率即为 $p_i^{y_i}(1-p_i)^{1-y_i}$；若进一步假设分类结果只与特征有关，那么全部分类正确的概率即为 $\prod_i p_i^{y_i}(1-p_i)^{1-y_i}$

于是我们的目标就是最大化对数似然函数： $$ \begin{aligned} L(w)&=\log\left[\prod\limits_i p_i^{y_i}(1-p_i)^{1-y_i}\right]\ &=\sum\limits_i\big(y_i\log p_i+(1-y_i)\log(1-p_i)\big)\ &=\sum\limits_i\big(y_i\log \dfrac{p_i}{1-p_i}+\log(1-p_i)\big)\ \end{aligned} $$ 这样变形的目的，是为了凑出对数几率函数 $\mathrm{logit}(p)=\log \dfrac{p}{1-p}$，因为它是 sigmoid 的反函数，而这里 $p=\sigma(w^\mathrm{T}x)$，故 $\log \dfrac{p}{1-p}$ 就等于 $w^\mathrm{T}x$（因此 logistic 回归也称为对数几率回归）。于是代入后继续化简得 $$ \begin{aligned} L(w)&=\sum\limits_i\left[y_i(w^\mathrm{T}x_i)+\log\dfrac{\exp(-w^\mathrm{T}x_i)}{1+\exp(-w^\mathrm{T}x_i)}\right]\ &=\sum\limits_i\big[w^\mathrm{T}x_iy_i-w^\mathrm{T}x_i-\log\big(1+\exp(-w^\mathrm{T}x_i)\big)\big]\ \end{aligned} $$

梯度下降之即可。其中对 $w$ 的偏导可以进一步化简： $$ \begin{aligned} \dfrac{\partial L}{\partial w}&=\sum\limits_i\big[x_iy_i-x_i-\dfrac{-x_i\exp(-w^\mathrm{T}x_i)}{1+\exp(-w^\mathrm{T}x_i)}\big]\ &=\sum\limits_ix_i\big[y_i-1+\dfrac{\exp(-w^\mathrm{T}x_i)}{1+\exp(-w^\mathrm{T}x_i)}\big]\ &=\sum\limits_ix_i\big[y_i-\dfrac{1}{1+\exp(-w^\mathrm{T}x_i)}\big]\ &=\sum\limits_ix_i\big[y_i-\sigma(w^\mathrm{T}x_i)\big]\ \end{aligned} $$

把偏置项拆出来，即 $$ \begin{aligned} \frac{\partial L}{\partial w} &= \sum_i x_i [y_i - \sigma(w^\mathrm{T}x_i + b)]\ \frac{\partial L}{\partial b} &= \sum_i [y_i - \sigma(w^\mathrm{T}x_i + b)] \end{aligned} $$

至于最后如何判别，就是看分类为正类的概率是否比负类大，本质上还是和 0.5 比大小，但这种比大小可以从概率角度解释，和传统的回归分类还是有区别的；由 sigmoid 单调性，也可以等价为 $w^\mathrm{T}x$ 和 0 比大小。

交叉熵损失

实践中采用 mini-batch 梯度下降，即在小批量样本上（而不是在整个训练集上）做梯度下降。为了防止样本量对 loss 的数值尺度的影响，需要把损失函数除以样本量，也即定义损失函数 $$ J(w) = - \dfrac{1}{m} L(w) = -\dfrac 1m\sum\limits_{i=1}^m\bigg[y_i\log p_i+(1-y_i)\log(1-p_i)\bigg] $$ 这称为交叉熵损失。其中 $y_i$ 是第 $i$ 个样本的真实标签，取值 0 或 1，$p_i$ 是模型预测该样本为正类的概率。

为什么跟“熵”有关系：从公式的形式来看，它是概率的负对数的平均值，这相当于求“在所有样本的真实标签都已知时，获得的信息量的期望”。这个信息量越小，说明“真实标签”这个信息越没用，也即表明模型预测的概率分布越准确，离真实标签的差异越小。

另外实践中，为了防止对 0 取对数，需要在 log 里面加上一个小正数 $\varepsilon$

多分类与 softmax

多分类的思路和 logistic 是一样的，只不过它使用权重矩阵 $W=[w_i]$ 代替刚才的权重向量 $w$（同样的，偏置项 $b_k$ 塞进 $w_k$ 的第 0 项），得到“分为每个类的打分”： $$ z_k=w_k^\mathrm{T}x $$

然后再用 softmax 函数将 $\vec{z}$ 压成分类结果的概率分布向量 $\vec{p}$： $$ p_k = P(y=k|\vec{z}) = \text{softmax}k(\vec{z}) = \dfrac{\exp(z_k)}{\sum{j=1}^K\exp(z_j)} $$

对于多分类问题，loss 函数仍然是用“全部分类正确的概率”然后取对数平均（也即交叉熵）： $$ L(W) = -\dfrac{1}{m}\sum_{i=1}^my_{i}^\mathrm{T}\log p_{i} $$ 其中第 $i$ 样本的真实标签 $y_i$ 是 onehot 编码，例如对于三分类问题，标签“1”、“2”、“3”分别表示为 $[1,0,0]^\mathrm{T}$、$[0,1,0]^\mathrm{T}$ 和 $[0,0,1]^\mathrm{T}$。

这说明，二分类的 logistic 回归本质上是在计算两个类别的相对“证据差”。而多分类的 softmax 则是将这种思想推广到了多个类别中。

loss 梯度计算

仍然需要使用梯度下降进行优化。回顾 logistic 回归中，求 loss 的梯度时是通过配凑 logit 来化简的。softmax 回归中也需要做类似的化简，以便于计算 loss 的梯度。

softmax 把向量映射成向量，相当于向量值函数，其关于自变量 $\vec z$ 的偏导应该是一个 Jacobi 矩阵。记 softmax 结果为 $\vec p$，也即 $$ p_k(\vec{z}) = \dfrac{\exp(z_k)}{\sum_{k=1}^K\exp(z_k)} $$ 于是在求“分为第 $k$ 类的概率”关于“第 $j$ 类的打分”$\dfrac{\partial p_k}{\partial z_j}$ 时，显然可以分类讨论：

当 $j\neq k$ 时，自变量只在分母出现。求导时，分母平方；分子“上导下不导”中，上导为 0、“下导上不导”等于 $\exp(z_j)\exp(z_k)$，于是求导结果即为 $$ \frac{\partial p_k}{\partial z_j}=\frac{-\exp(z_j)\exp(z_k)}{\big(\sum_{k=1}^K\exp(z_k)\big)^2}=-p_jp_k $$
当 $j=k$ 时，“上导下不导”等于 $\exp(z_j)(\Sigma)$、“下导上不导”等于 $\exp^2(z_j)$，于是求导结果即为 $$ \frac{\partial p_k}{\partial z_j}=\frac{\exp(z_j)(\Sigma)-\exp^2(z_j)}{(\Sigma)^2}=\frac{\exp(z_j)}{\Sigma}-\left(\frac{\exp(z_j)}{\Sigma}\right)^2=p_j-p_j^2=p_j(1-p_j) $$

有了这些之后就可以计算 loss 的梯度。为了表述清晰，我们先关注单个样本的 loss 关于打分的偏导，然后再推广到整个数据集在模型参数上的偏导。由于求导过程涉及对自变量向量的非线性运算，需要把第 $i$ 样本的 loss 中的向量点乘写开来： $$ L_i = -y_i^\mathrm{T} \log p_i = - \sum_{k=1}^K y_{ik} \log p_{ik} $$ 其中 $y_{ik}$ 是第 $i$ 个样本的真实标签的第 $k$ 分量，$p_{ik}$ 是模型预测第 $i$ 个样本分为第 $k$ 类的概率。于是由链式法则，第 $i$ 样本的损失 $L_i$ 对第 $j$ 类的打分 $z_{ij}$ 的偏导为 $$ \begin{aligned} \frac{\partial L_i}{\partial z_{ij}} &= \frac{\partial L_i}{\partial p_{ik}} \frac{\partial p_{ik}}{\partial z_{ij}}=-\sum_{k=1}^K \frac{y_{ik}}{p_{ik}} \frac{\partial p_{ik}}{\partial z_{ij}}\ &= \underbrace{\left( -\frac{y_{ij}}{p_{ij}} \frac{\partial p_{ij}}{\partial z_{ij}} \right)}{k=j} + \sum{k \neq j} \underbrace{\left( -\frac{y_{ik}}{p_{ik}} \frac{\partial p_{ik}}{\partial z_{ij}} \right)}{k \neq j} \ &= \left( -\frac{y{ij}}{p_{ij}} \right) \cdot \big( p_{ij}(1-p_{ij}) \big) + \sum_{k \neq j} \left( -\frac{y_{ik}}{p_{ik}} \right) \cdot (-p_{ij}p_{ik}) \ &= -y_{ij}(1-p_{ij}) + \sum_{k \neq j} y_{ik}p_{ij} \ &= -y_{ij} + y_{ij}p_{ij} + p_{ij}\sum_{k \neq j} y_{ik} \ &= -y_{ij} + p_{ij} \sum_{k=1}^K y_{ik} \end{aligned} $$ 而对于 onehot 编码向量 $y_i$ 而言，$\sum\limits_{k=1}^K y_{ik}\equiv1$，于是 $$ \frac{\partial L_i}{\partial z_{ij}} = p_{ij} - y_{ij} $$

代入 $z_{ij}=w_{j}^\mathrm{T}x_i$ 得 $$ \frac{\partial L_i}{\partial w_j} = \frac{\partial L_i}{\partial z_{ij}} \frac{\partial z_{ij}}{\partial w_j} = (p_{ij} - y_{ij}) x_i $$ 最后只需要将所有样本的梯度进行平均，于是总 loss 对参数的梯度 $$ \frac{\partial L}{\partial w_j} = \frac{1}{m} \sum_{i=1}^m (p_{ij} - y_{ij}) x_i $$ 拆出偏置项的形式： $$ \begin{aligned} \frac{\partial L}{\partial w_j} &= \frac{1}{m} \sum_{i=1}^m (p_{ij} - y_{ij}) x_i\ \frac{\partial L}{\partial b_j} &= \frac{1}{m} \sum_{i=1}^m (p_{ij} - y_{ij}) \end{aligned} $$

作为对比：在 logistic 回归中，loss 梯度 $\dfrac{\partial L}{\partial w}=\dfrac1m\displaystyle\sum\limits_ix_i\big[\sigma(w^\mathrm{T}x_i)-y_i\big]$，其中 $\sigma$ 那一项就是概率，因此在表达式上二者是完全一致的

无向图模型视角

现在我们回头用概率无向图模型的观点来审视 logistic 回归。事实上，logistic 回归可以被看作一个非常简单的 Markov 随机场。

考虑一个分类问题，我们有输入特征 $X={X_1, \dots, X_d}$ 和输出类别 $Y$。构建一个无向图，其中 $Y$ 和所有的 $X_i$ 都相连，所有 $X_i$ 之间也相互连接。这个图本身就是一个巨大的团，也是该图的唯一最大团。于是分类问题即求条件概率 $P(Y=k\mid X=\vec x)$

根据 Hammersley-Clifford 定理，该图的联合概率分布可以表示为： $$ P(Y, X) = \frac{1}{Z}\varphi(Y, X) $$ 于是条件概率 $$ P(Y\mid X) = \frac{P(Y, X)}{P( X)} = \frac{P(Y, X)}{\sum_{Y'}P(Y', X)} = \frac{\frac{1}{Z}\varphi(Y, X)}{\sum_{Y'}\frac{1}{Z}\varphi(Y', X)} = \frac{\varphi(Y, X)}{\sum_{Y'}\varphi(Y', X)} $$

如果定义势函数 $$ \varphi(Y, X) = \exp\left( \sum_{k=1}^K \mathbb{I}(Y=k) \cdot (w_k^\mathrm{T} X + b_k) \right) $$ 其中 $\mathbb{I}(Y=k)$ 是示性函数（当 $Y=k$ 时为 1，否则为 0），$w_k$ 和 $b_k$ 分别是第 $k$ 类的权重和偏置。当我们只关心 $Y=k$ 这个特定类别时，上式可以简化为 $\varphi(k,X) = \exp(w_k^\mathrm{T}X + b_k)$。

将这个势函数代入条件概率公式中： $$ P(Y=k|X) = \frac{\varphi(k,X)}{\sum_{j=1}^K \varphi(j,X)} = \frac{\exp(w_k^\mathrm{T}X+b_k)}{\sum_{j=1}^K \exp(w_j^\mathrm{T}X+b_j)} $$ 这就是 softmax 回归的公式

因此，从概率图模型的角度来看，logistic/softmax 回归相当于一个势函数为特征的线性组合的指数形式的 Markov 随机场。这种直接对条件概率 $P(Y|X)$ 进行建模的模型，也称作判别式模型。

强化学习 - Policy iteration 与 Q-Learning

Sat, 25 Oct 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

1 通勤北理工

研小理是一位在北理工中关村校区的研究生，由于他要做很多实验，而这些实验的仪器设备又分布在不同校区，他经常需要往返良乡校区和西山实验区，然后回到中关村校区。

考虑到这在几年内是一个重复活动，我们把它建模为一个无限时域的 MDP 过程。研小理做实验的时间非常不确定，而班车的发车时间是固定的。为了实现更加灵活的通勤，他构想出了一套校区间通勤的方案。这个过程可以使用一个三状态 MDP 链描述，其中 $S_1$ 是西山实验区，$S_2$ 是良乡校区，$S_3$ 是中关村校区。

| 奖励 | 班车 | 地铁 | | :--- | :--- | :--- | | $S_1$ | +0.7 | -1.0 | | $S_2$ | +1.0 | -1.3 | | $S_3$ | -0.5 | -0.7 |

折扣因子 $\gamma = 0.9$。运行值迭代后，你得到如下最优 $Q$-值：

| $Q^*$ | 班车 | 地铁 | | :---- | :--- | :--- | | $S_1$ | +1.65| -0.05| | $S_2$ | +1.95| -0.35| | $S_3$ | +0.98| +1.05|

请问研小理通勤的最优策略是什么？

解答:

对每一状态，以 $Q^*$ 矩阵中行最大值对应的动作为最优策略。即

在 $S_1$ 西山实验区时选择班车
在 $S_2$ 良乡校区时选择班车
在 $S_3$ 中关村校区时选择地铁

在此聚合状态下（仍取 $\gamma = 0.9$），我们仍然在三状态环境中运行 Q-learning，但是使用双状态的 Q 表，可以得到的 $Q^*$ 值为

| $Q^*$ | 班车 | 地铁 | | :---- | :--- | :--- | | $S_{12}$ | +1.73| -0.08| | $S_3$ | +1.03| +0.84|

根据这些 $Q$-值，最优策略是什么？与使用真实三状态表示时得到的最优策略相同？解释原因。

仍以 $Q^*$ 矩阵中行最大值对应的动作为最优策略，也即不论哪个状态均选择班车。

与第一问结果不相同。原因：

$$ Q'(s,a)=Q(s,a)+\alpha\big[R+\gamma \max\limits_{a'}Q(s',a')-Q(s,a) \big] $$

对于 $S_3$ 中关村，合并状态 1 和 2 后，$Q(s',a')$ 都相等，因此 $Q$ 矩阵的更新仅依赖于奖励 $R$. 又因为在 $S_3$ 时 $R_{班车}=-0.5$ 大于 $R_{地铁}=-0.7$，所以最优策略从地铁变为班车。

另一方面，当使用真实的三状态时，$S_2$ 的“班车”拥有全局最大奖励，而在 $S_3$ 只能通过地铁到达 $S_2$；因此模型将会学习到通过地铁来到 $S_2$，以获取更大的奖励。但是如果合并 $S_1$ 和 $S_2$，这一最大奖励性质不存在，自然会影响其策略。

2 Frozenlake小游戏

在本次编程作业中，将实现强化学习中的两种算法——策略迭代（Policy Iteration）和 Q-Learning，并在 Gymnasium（前身为 OpenAI Gym）环境中的 Frozenlake 游戏环境中进行应用。通过这次作业，希望你可以理解这几种算法的工作原理及其在不同环境和奖励条件下的表现。非常鼓励探索和调整不同环境参数，分析算法在各种条件下的适应性和性能。

2.1 ~ 2.3

参数设定

地图大小：$4\times4$
冰面出现的概率：$0.7$
最大步数 1000
策略迭代算法：
- 折扣因子 $\gamma=0.9$
- 收敛容差 $\text{tol}=10^{-3}$
Q-Learning 算法：
- episode = 10000
- 折扣因子 $\gamma=0.95$
- 学习率 $\alpha=0.1$
- 探索率 $\varepsilon=1$
- 探索率衰减因子 0.999

对于题述的四个实验条件，采用同一地图进行 100 次测试，计算成功率和平均步数以衡量算法的性能。

执行：

python run.py --multirun algorithm=policy_iteration,QLearning env.is_slippery=False,Tru env.render_mode=ansi

实验结果如下：

| 环境 | 算法 | 成功率 | 平均步数 | | :-- | :--------- | :--- | :---- | | 确定性 | 策略迭代 | 100% | 5.00 | | 确定性 | Q-Learning | 100% | 5.00 | | 随机性 | 策略迭代 | 100% | 34.50 | | 随机性 | Q-Learning | 100% | 37.83 |

结果表明：

Policy iteration 和 Q-Learning 两种算法在确定性和随机性环境中成功率均为 100%，表明两个算法均成功学习到了能够到达终点的路径。
冰面光滑时，两种算法的平均步数显著增加。表明环境的随机性对算法效率有显著影响，智能体需要更多步数以应对不确定性。
在确定性环境中，两种算法表现一致，平均步数均为理论最小值 5。但在随机性环境中，Policy iteration 得到的策略在效率上略优于 Q-Learning。原因分析：Policy iteration 使用动态规划，直接使用转移概率 $P$ 进行完整的环境建模，直接算出全局最优策略。而 Q-Learning 为 model-free 方法，没有全局状态转移概率，在随机性环境中，状态转移的不确定性增加了学习的难度，使得 Q-Learning 需要更多的步骤，因此效率低。

2.4

除地图大小外，其他参数保持不变，再次进行实验。实验结果如下。

6x6 地图

| 环境 | 算法 | 成功率 | 平均步数 | | :-- | :--------- | :--- | :---- | | 确定性 | 策略迭代 | 100% | 9.00 | | 确定性 | Q-Learning | 100% | 9.00 | | 随机性 | 策略迭代 | 68% | 45.02 | | 随机性 | Q-Learning | 0% | - |

8x8 地图

| 环境 | 算法 | 成功率 | 平均步数 | | :-- | :--------- | :--- | :---- | | 确定性 | 策略迭代 | 100% | 13.00 | | 确定性 | Q-Learning | 0% | - | | 随机性 | 策略迭代 | 77% | 79.90 | | 随机性 | Q-Learning | 0% | - |

实验结果表明，随着地图尺寸的增大，两种算法的表现产生显著差异。

Policy iteration 表现稳定。确定性环境中成功率 100%，说明模型总能找到最优路径；在随机性环境中成功率较高，表明它也能学习到一个鲁棒的策略。说明 Policy iteration 算法具有较好的扩展性，其性能不因状态空间的增大而大幅下跌。
Q-Learning 算法性能不好。在 6x6 地图、随机性环境中，Q-Learning 成功率为 0%，模型失效，无法学习到有效策略。当地图扩大到 8x8 时，确定性环境与随机性环境中 Q-Learning 算法均失效。

原因：Q-Learning 是 model-free，只有终点有正奖励。当状态空间增大时，一方面奖励稀疏，另一方面 Q 矩阵大小增大，这导致在有限的训练回合内智能体难以充分探索有效动作，Q 矩阵几乎无法得到更新，难以学习到任何有价值的策略。而 Policy iteration 依然进行全局动态规划，即使地图大小增大也不过是在 $n$ 个数中选择最大值，对效率影响不大。

code

注：可以使用 python 自带的虚拟环境：

python -m venv env-name
.\env-name\Scripts\activate # windows
source env-name/bin/activate # linux

以下是依赖包与主要代码（其他的是老师给的框架

gymnasium[toy_text]
hydra-core
tqdm

"""Policy Iteration"""
import numpy as np
from typing import Dict, List, Tuple

__all__ = [
    "PType",
    "policy_iteration", 
    "QLearning"
]

PType = Dict[
    int, 
    Dict[
        int, 
        List[
            Tuple[
                float, 
                int, 
                int, 
                bool
            ]
        ]
    ]
]

def policy_evaluation(
    P: PType, 
    nS: int, 
    nA: int, 
    policy: np.ndarray, 
    gamma: float = 0.9, 
    tol: float = 1e-3
) -> np.ndarray:

    value_function = np.zeros(nS)
    counter=0
    while True:
        delta=0
        for s in range(nS):
            prev=value_function[s]
            a=policy[s]
            sum=0
            rsa=0
            for pssa, next_s, r, _ in P[s][a]:
                rsa=r
                sum+=pssa*value_function[next_s]
            newv=rsa+gamma*sum
            
            value_function[s]=newv
            delta=max(delta, abs(prev-value_function[s]))
        if delta<tol:
            break
    return value_function


def policy_improvement(
    P: PType,
    nS: int,
    nA: int,
    value_from_policy: np.ndarray,
    policy: np.ndarray,
    gamma: float = 0.9
) -> np.ndarray:

    new_policy = np.zeros(nS, dtype="int")
    for s in range(nS):
        q=np.zeros(nA)
        for a in range(nA):
            sum=0
            for pssa, next_s, r, _ in P[s][a]:
                rsa=r
                sum+=pssa*value_from_policy[next_s]
            q[a]=rsa+gamma*sum
            
        new_policy[s]=np.argmax(q)
    return new_policy


def policy_iteration(
    P: PType, 
    nS: int, 
    nA: int, 
    gamma: float = 0.9, 
    tol: float = 1e-3
) -> Tuple[np.ndarray, np.ndarray]:

    value_function = np.zeros(nS)
    policy = np.zeros(nS, dtype=int)

    while True:
        value_function=policy_evaluation(P, nS, nA, policy, gamma, tol)
        new_policy=policy_improvement(P, nS, nA, value_function, policy, gamma)

        if np.array_equal(new_policy, policy):
            break
        
        policy=new_policy
        
    return value_function, policy


"""Q-Learning"""

import gymnasium
from tqdm import tqdm

def QLearning(
    env:gymnasium.Env, 
    num_episodes=2000, 
    gamma=0.9, 
    lr=0.1, 
    epsilon=0.8, 
    epsilon_decay=0.99
) -> np.ndarray:

    nS:int = env.observation_space.n
    nA:int = env.action_space.n

    Q = np.zeros((nS, nA))

    for _ in tqdm(range(num_episodes)):
        state, _ = env.reset()
        stop=False

        while not stop:
            if np.random.rand()<epsilon:
                # action=env.action_space.sample()
                action=np.random.randint(nA)
            else:
                action=np.argmax(Q[state])

            next_state, r, terminated, truncated, _=env.step(action)
            
            stop=terminated or truncated

            best_action=np.argmax(Q[next_state])
            Q[state][action] += lr * (r + gamma*Q[next_state][best_action] - Q[state][action])
            state=next_state

        epsilon*=epsilon_decay

    return Q

env:
  map_size: 8
  frozen_prob: 0.7
  seed: 114514
  is_slippery: False
  render_mode: human
policy_iteration:
  gamma: 0.9
  tol: 1e-3
qlearning:
  num_episodes: 10000
  gamma: 0.95
  learning_rate: 0.1
  epsilon: 1
  epsilon_decay: 0.999
render:
  max_steps: 1000
algorithm: policy_iteration

强化学习 - Markov 决策过程

Sat, 11 Oct 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

1 马尔可夫决策过程

老虎机 A: 每次下注 10 元，有 0.05 的概率获得 20 元（即净赚 10 元），否则获得 0 元（即输掉 10 元）。
老虎机 B: 每次下注 20 元，有 0.01 的概率获得 30 元（即净赚 10 元），否则获得 0 元（即输掉 20 元）。

在结束之前，你每轮都要选择玩老虎机 A 还是老虎机 B。请在下方给出一个能够刻画上述情景的 MDP，描述其状态空间、动作空间、奖励函数与转移概率。假设折扣因子 $\gamma = 1$。你可以用方程、表格或图示来表达解答。

(1) 状态空间即手中金钱数量 $S = {0,,10,,20,,30,,40}$；

(2) 动作空间 $A=\left{停止,,玩A,,玩B\right}$；

(3) 转移概率 $P$：如下表所示。其中 $S=0$、$S=40$ 是终止状态，当且仅当进入终止状态时停止游玩；$S=20$ 是初始状态；$S=10$ 时，由于玩 B 需要本金 20 元，因此该状态只能选择玩 A。

| 当前状态 $s$ | 动作 $a$ | 可能的结果 | 下一状态 $s'$ | 转移概率 $P^a_{ss'}$ | | :------- | :----- | :---- | :-------- | :--------------- | | 0 | 停止 | / | / | 1.00 | | 10 | 玩 A | 赢10元 | 20 | 0.05 | | | | 输10元 | 0 | 0.95 | | 20 | 玩 A | 赢10元 | 30 | 0.05 | | | | 输10元 | 10 | 0.95 | | | 玩 B | 赢10元 | 30 | 0.01 | | | | 输20元 | 0 | 0.99 | | 30 | 玩 A | 赢10元 | 40 | 0.05 | | | | 输10元 | 20 | 0.95 | | | 玩 B | 赢10元 | 40 | 0.01 | | | | 输20元 | 10 | 0.99 | | 40 | 停止 | / | / | 1.00 |

(4) 奖励函数：定义 0 状态的奖励为 $0$，40 状态的奖励为 $40$，其他状态的奖励为该次游玩后手中金钱的变化量。这导致模型会以尽可能少输钱的方式达到 $40$ 元

2 Gridworld 小游戏

考虑如下的网格环境:

从任意非阴影的格子出发，你可以向上、向下、向左或向右移动。动作是是确定性的，意味着动作执行后一定会从一个状态到达另一个状态（例如从状态 13 向上走，可以连接到状态 9）。
较粗的边表示墙壁，尝试向墙壁方向移动将会导致智能体原地不动（例如从状态 13 向右走，无法到达状态 14，仍会停留在原状态 13）。
在绿色目标格子（编号 3）采取任何动作将获得奖励 $r_g$（因此 $r(3, a) = r_g$ 对所有动作 $a$ 成立），并结束回合。在红色死亡格（编号 14）采取任何动作将获得奖励 $r_r$ （因此 $r(14, a) = r_r$ 对所有动作 $a$ 成立），并结束回合。
在其他所有格子中，采取任何动作都与奖励 $r_s \in {-1, 0, +1}$ 相关（即使该动作导致智能体保持在原地）。

除了特殊规定外，以下假设折扣因子 $\gamma = 1$，$r_g = +3$，且 $r_r = -3$。

2(a) 最短路径策略

定义 $r_s=-1$，即每走一格都给出一个负奖励，即对于最终奖励，将要扣除路程的长度。这样到达绿色目标的路径越短，路程上的损失越少，因此在最大化过程中，最优策略将会返回最短路径。

根据最短路观察，可定义策略 $\pi$：除了绿色和红色，在满足“使得到绿色目标格子距离减少”的所有允许动作中均匀随机选择；绿色和红色状态在所有允许动作中随机均匀选择。也即，记向上、下、左、右动作为 $\mathrm{u}$、$\mathrm{d}$、$\mathrm{l}$、$\mathrm{r}$，那么

$$ \begin{aligned} \pi(\mathrm{u}|s)&= \begin{cases} 1&\mathrm{for}\ s=5,,7,,9,,11,,13,,15\ 0.5&\mathrm{for}\ s=6,,10,,14\ 0&\mathrm{for}\ s=1,,2,,3,,4,,8,,12,,16 \end{cases} \\ \pi(\mathrm{d}|s)&= \begin{cases} 1&\mathrm{for}\ s=4,,8,,12\ 0.5&\mathrm{for}\ s=3\ 0&\mathrm{for}\ s=1,,2,,5,,6,,7,,9,,10,,11,,13,,14,,15,,16 \end{cases} \\ \pi(\mathrm{l}|s)&= \begin{cases} 1&\mathrm{for}\ s=16\ 0.5&\mathrm{for}\ s=3\ 0&\mathrm{for}\ s=1,,2,,4,,5,,6,,7,,8,,9,,10,,11,,12,,13,,14,,15 \end{cases} \\ \pi(\mathrm{r}|s)&= \begin{cases} 1&\mathrm{for}\ s=1,,2\ 0.5&\mathrm{for}\ s=6,,10,,14\ 0&\mathrm{for}\ s=3,,4,,5,,6,,7,,8,,9,,11,,12,,13,,15,,16 \end{cases} \end{aligned} $$

由状态价值函数的 Bellman equation，代入 $r_s=-1$、$\gamma=1$ 得，对一切 $s\ne 3 \mathrm{\ and\ }14$ $$ \begin{aligned} V^\pi(s)&=\mathbb{E}[R_{t+1}+\gamma V^\pi(S_{t+1})\mid S_t=s]\ &=-1+\mathbb{E}[V^\pi(S_{t+1})\mid S_t=s]\ &=-1+\sum\limits_a \pi(a|s)V^\pi(s') \end{aligned} $$ 注意到，对任意非红色格子，按照该策略进行一步移动，均导致离绿色目标格子的距离减小一格，因此对于 $\pi=0.5$ 的情形，两个概率将合并；又进入绿色状态时 $V^\pi(3)=r_g=+3$，到达绿色状态的路径上每走一格奖励减 1，故记路程最短长度为 $d(s)$，递推可得 $$ V^\pi(s)=3-d(s),\quad \forall,s\ne 3 \mathrm{\ and\ }14 $$

因此每个格子的最优价值，如图所示（左上角蓝色数字为最优价值）

2(b) 奖励变化的影响

由题意，$r_s=1$，递推后的状态价值函数为 $$ V^{\pi_g}_\mathrm{new}(s)=6+d(s),\quad \forall,s\ne 3 \mathrm{\ and\ }14 $$ 因此该网格世界中，每个格子的最优价值如图所示

2(c) 奖励变化的一般表达式

给出一个表达式，用于表示策略 $\pi$ 在这个第二个 MDP 中引发的新价值函数 $V_\mathrm{new}^\pi$ 与 $V_\mathrm{old}^\pi$、$c$ 和 $\gamma$ 之间的关系
是否存在特定的 $c$ 使得最优策略发生变化?如果存在，请给出 $c$ 使得策略变化的取值范围，并说明变化理由，反之则给出不存在的理由。

对任意状态 $s$：

$$ \begin{aligned} V^{\pi}\mathrm{new}(s)&=\mathbb{E}\pi[R_{\mathrm{new},,t+1}+\gamma V^{\pi}\mathrm{new}(S{t+1})\mid S_t=s]\ &=c\cdot r_s+\gamma,\mathbb{E}\pi[V^{\pi}\mathrm{new}(S_{t+1})\mid S_t=s] \end{aligned} $$ $$ \begin{aligned} V^{\pi}\mathrm{old}(s)&=\mathbb{E}\pi[R_{\mathrm{old},,t+1}+\gamma V^{\pi}\mathrm{old}(S{t+1})\mid S_t=s]\ &=r_s+\gamma,\mathbb{E}\pi[V^\pi\mathrm{old}(S_{t+1})\mid S_t=s]\ c\cdot V^{\pi}\mathrm{old}(s)&=c\cdot r_s+\gamma,\mathbb{E}\pi[c\cdot V^\pi_\mathrm{old}(S_{t+1})\mid S_t=s]\ \end{aligned} $$ 于是 $V^{\pi}\mathrm{new}(s)=c\cdot V^{\pi}\mathrm{old}(s)$，由 Bellman equation 以及 2(a) 中关于概率合并的证明可得 $$ \begin{aligned} Q_\pi(s,a)&=R_s^a+\gamma\sum\limits_{s'}P_{ss'}^aV(s')\ &=r_s+\gamma V(s') \end{aligned} $$ 于是 $$ \begin{aligned} Q^\pi_\mathrm{old}(s,a)&=r_s+\gamma,V^\pi_\mathrm{old}(s')\ Q^\pi_\mathrm{new}(s,a)&=c\cdot r_s+\gamma,cV^\pi_\mathrm{old}(s')\ &=c\cdot Q^\pi_\mathrm{old}(s,a) \end{aligned} $$ 对 $Q$ 做最大化以得到最优策略。因此：

当 $c\geq0$ 时，最大化结果不变，策略不变
当 $c<0$ 时，由于该网格世界不具有对称性，最优策略发生改变。

2(d) 正奖励的影响

$c=2-(-1)=3$，于是 $r_g=+6$，$r_r=0$，$\gamma=1$ 。这导致所有格子均有非负奖励，因此价值函数始终递增且发散到 $+\infty$ 。故最优策略即“在循环路径中无限运动”，只要不进入红绿两个终止态，奖励的累积将会趋于正无穷。

此时非阴影格子的价值变为 $+\infty$

数据结构与算法设计 - 搜索

Sat, 04 Jan 2025 00:00:00 GMT

分类：

暴力搜索（真叫这个名，brute-force search）
图遍历
- 广度优先搜索 BFS
- 深度优先搜索 DFS
树遍历
- 回溯 (Back tracking)，即有剪枝的深搜
- 分枝限界
- 博弈树搜索
启发式搜索

1 小记（无关本篇文章）

1.1 博弈树搜索

问题：7 根火柴，两个人轮流取火柴，要么取 1 根要么取 2 根，谁拿到最后一根火柴谁赢。

用方框表示先手面对的情况（即剩下的火柴数），圆框表示后手面对的情况，可以画出一棵树；当面对的情况是 1 或 2 时则胜利。下面是一部分图。可以看出，它是一个按层交替进行的树，一层是先手一层是后手。因此博弈树搜索也叫 α-β 搜索

我们给每个结点都打一个标记，1 则是先手胜利，0 则是后手胜利。那么可以直接把叶子结点的标记写出来。对于分支结点，如果是先手结点，我一定希望选择走 1 的方向，如果是后手结点，我一定希望选择走 0 的方向，这就是剪枝。在实际问题中，定义先手胜利为大、后手胜利为小，那么填分支结点过程就是先手取大值、后手取小值。这样就可以把整棵树所有结点的标记全部得出来。（下面图只是一部分，树太大了画不下）

在博弈中，对手是不能配合你的。所以作为先手应该尽可能走全 1 的路线，作为后手应该尽可能走全 0 的路线

结论：对于这种 1 根 2 根的，只要维护一个事情：我的回合结束后，必然剩下 3 的倍数（$3=1+2$）。这样往后每一轮，如果对手取 1 根我就取 2 根。对手取 2 根我就取 1 根，这样最后剩 3 根火柴到对手面前，我必胜。

反过来，如果取到最后一根火柴的人输，则需要维护我的回合结束后，必然剩下 $3k-1$，然后还是他一根我两根，他两根我一根。

1.2 灌水问题

灌水问题：一个 7 升的桶和一个 3 升的桶，量出 5 升水。直接暴搜，一个结点两个量，表示两个桶的水量。每一个结点都可以伸出来好多情况，要么装满，要么倒空，要么一个往另一个倒，只要最后整出来两个数中有一个是 5 就齐活。

实际上这是一个数学问题。数学上可以证明，如果两个桶容量的最大公约数可以整除目标数（即5 % gcd(7,3) == 0），那么就一定存在解。只需要求 $7x+3y=5$ 的整数解即可。例如其中一组解 $x=-1,\ y=4$，代表 7 升的桶要清空一次，3 升的桶要装满 4 次。所以过程就是：3 升桶灌满，往 7 升桶倒；3 升桶灌满，往 7 升桶倒；3 升桶灌满，往 7 升桶倒，这时候只能倒 1 升，7 升桶满了，3 升桶剩 2 升；把 7 升桶清空，3 升桶剩下的 2 升往 7 升桶倒（只有装满的桶才能清空，然后把灌水的桶中剩下来的水倒到清空的桶中）；3 升桶灌满，往 7 升桶倒，这时候 7 升桶里面就是 5 升水。再例如还有一组解 $x=2,\ y=-3$，代表 7 升桶要装满 2 次，3 升桶要清空 3 次。

2 分枝限界

例：有 ABCD 四个人，1234 四个任务，要求每人选一个任务做，一个任务只能一个人做。已知不同人完成不同任务所需时间的表格，找出一个总时间最少的分配方案。

| 人员 | 任务1 | 任务2 | 任务3 | 任务4 | | :-: | :-: | :-: | :-: | :-: | | A | 2 | 10 | 9 | 7 | | B | 15 | 4 | 14 | 8 | | C | 13 | 14 | 16 | 11 | | D | 4 | 15 | 13 | 9 |

朴素（暴力）地来看，直接枚举 $A_4^4$ 一定可以找到最优解。这样相当于构造一棵树，根结点出来 $n$ 条边连到第一层，第一层每个结点出来 $n-1$ 条边连到第二层，以此类推。这玩意会变得相当大，接近 $n^n$ 级别增长的。

优化：在搜之前，先做一个预判。忽略掉“每人选一个任务做，一个任务只能一个人做”这一限制条件，对这个点做一个美好的估计，求一下在目前已经选好人选的条件下，未来总用时的理论最小值。

2.1 美好的估计

一开始还没安排，那么已经确认的时间是 0。我们做一次美好估计，让 A 做任务 1，B 做任务 2，A 做任务 3，A 做任务 4，总时间就是 $2+4+9+7=22$。这是总用时的理论最小值，最后的实际用时一定大于等于 22。
现在决定一下到底谁做任务 1。
- 假设 A 做任务 1，那么 A 那一行和任务 1 那一列就被占掉了，那么已经定下来的时间就是 2，剩下 BCD 做任务 234，我们还是让最快的人做，即让 B 做任务 2、D 做任务 3、B 做任务 4，这样美好的估计就是 $2+4+13+8=27$
- 假设 B 做任务 1，那么 B 那一行和任务 1 那一列就被占掉了，那么已经定下来的时间就是 15，剩下 ACD 做任务 234，美好估计为 $15+10+9+7=41$
- 假设 C 做任务 1，美好估计为 $13+4+9+7=33$
- 假设 D 做任务 1，美好估计为 $4+4+9+7=24$
这么来看，如果 D 做任务 1，美好估计的值最小。我们说真实情况一定比美好估计要大于等于，也就是“D 做任务 1”有更大概率可以通向那个解。我们就从 D 开始往下搜，决定谁做任务 2
- 假设 A 做任务 2，美好估计为 $4+10+14+8=36$
- 假设 B 做任务 2，美好估计为 $4+4+9+7=24$
- 假设 C 做任务 2，美好估计为 $4+14+9+7=34$
于是任务 2 我们就让 B 来做。用同样的方法安排任务 3
- 假设 A 做任务 3，美好估计为 $4+4+9+11=28$
- 假设 C 做任务 3，美好估计为 $4+4+16+7=31$
所以 A 做任务 3，C 只能选剩下的任务 4，总时间的美好估计为 28

2.2 检验最优解

我们刚才的过程实际上给出了一个树

现在有 27、41、33、36、34 这些点还没安排完。对于后面四个，已经可以不用看了，因为它们几个再安排下去只能比 41、33、36、34 要大，不可能比 28 还小。但是这些没安排完的结点里面有一个 27 是比 28 小的，也就是说这个结点下面可能会有比 28 要小的解。

所以 27 这个结点要继续做安排。往下安排任务 2，得到美好估计为 28、37、39，都不比 28 小，说明 28 确实是最优解了。

注意区分

分枝限界中每个点只有一次机会，而回溯中每个点有多次机会
回溯建立在深搜，分枝限界参考广搜但不是广搜，是优先队列

3 装载问题

例：给定 n 件货物及他们的重量 $w_i$，来了一艘容量 c 的船，给出最优装载方案。

没有任何剪枝纯暴力算法，直接搜

//暴搜
//全局：curw为当前重量，bestw为最优重量，n为货物总数，c为船的载重量
void backtrack(int t)//t是子集树的层号（即目前正在装载第几件货物）
{
	if(t>n)//触底了
	{
		if(curw<=c && curw>bestw)
			bestw=curw;//如果这个子集合理且更优则更新
		return;
	}
	curw+=w[t];
	backtrack(t+1);//如果放当前货物，往下尝试
	curw-=w[t];//还原，回到进入结点时的状态
	backtrack(t+1);//如果不放当前货物，往下尝试
}

暴搜的代码没有任何数据结构，但是它跑起来的时候隐含了一棵树，称为子集树（例如有三个元素，我们考虑他的所有子集，每一位代表一个元素，用 0 代表不取、1 代表取。例如 110 就是取第一个和第二个不取第三个。000、001、010、011、100、101、110、111，我称之为子集序列）。下图左边就是子集树，右边是代入具体例子得到的树。

3.1 约束条件

刚才那张图上，红色部分是超过总容量的。而重量大于零，一旦超过总容量，它往后的所有点一定都是不符合条件的。这时候就可以引入剪枝条件，当curw+w[t]>c的时候就不用往左分支再尝试了，即把左分支剪掉。

//优化：约束条件
void backtrack(int t)
{
	if(t>n)
	{
		if(curw<=c && curw>bestw)
			bestw=curw;
		return;
	}
	if(curw+w[t]<=c)//只有符合条件的才能往下尝试
	{	
		curw+=w[t];
		backtrack(t+1);
		curw-=w[t];//如果成功往下尝试了记得要还原
	}
	backtrack(t+1);
}

3.2 限界条件

约束条件是题目内在的需求，而限界条件则是剪掉不可能得到最优解的子树，这个条件是要自己设计的。不过一般都是一个下界或者一个上界。

在本题中，我们定义一个数r表示剩余物品的总重量。如果r和当前物品重量curw加起来还到不了bestw，那这一路往下都不可能比 bestw大，可以直接剪掉。

//优化：约束条件+限界条件
//全局：r为剩余重量，x[i]是当前子集序列（给出最优解用的），bestx[i]是最优解的子集序列
void backtrack(int t)
{
	if(t>n)
	{	
		if(curw>bestw)
			bestw=curw;
			bestx=x;
		return;
	}
	r-=w[t];//考虑当前物品，不管放不放入，剩余重量都要减小
	if(curw+w[t]<=c)//约束条件，判断去不去左子树
	{	
		curw+=w[t];
		x[t]=1;
		backtrack(t+1);
		curw-=w[t];
	}
	if(curw+r > bestw)//限界条件，判断去不去右子树
	{	
		x[t]=0;
		backtrack(t+1);//如果不放当前货物，往下尝试
	}
	r+=w[t];//还原，表示两个子树都不去，这个情况往下不考虑了
}

本题中只有左分支有约束条件，只有右分支有限界条件。

3.3 提前更新最优解

（没听懂）

//优化：约束条件+限界条件+提前更新
backtrack(t)
{
	if(t>n)
		if(curw>bestw)
			bestw=curw;
			bestx=x;
		return;
	r-=w[t];
	int tmp=curw+w[t];
	if(tmp<=c)
		if(tmp>bestw) bestw=tmp;//提前把最优解变得更优
		curw+=w[t];
		x[t]=1;
		backtrack(t+1);
		curw-=w[t];
	if(curw+r > bestw)
		x[t]=0;
		backtrack(t+1);
	r+=w[t];
}

只有部分题目可以做提前更新。符号三角形问题不能做提前更新

4 回溯模型

刚才讨论的就是回溯。把回溯理解成有剪枝的深搜。回溯函数中包含的内容和深搜是一样的，即返回条件、设置左分支+进入左分支+还原、设置右分支+进入右分支+还原

4.1 子集树回溯模型

类似装载问题这种，在给定约束条件内、选择集合内某些物品使得某个量最优的问题，都可以用子集树回溯来解。

把上面的代码抽象成流程思路

backtrack(t)
{
	if(t>n)//触底
		判断是否比当前最优解更优，更优则更新最优解
		return;
	if(满足约束条件 && 满足限界条件)
		设置左分支条件;
		backtrack(t+1);
		还原左分支条件;
	if(满足约束条件 && 满足限界条件)
		设置左分支条件;
		backtrack(t+1);
		还原左分支条件;
}

01 背包问题

装载问题实际上就是“价值=重量”条件下的 01 背包。类比刚才的思路，可以写出 01 背包的回溯解法，只需要多一个价值数组v[i]，定义r为剩余物品的价值和即可

void backtrack(int t)
{
	if(t>n)
	{
		if(curw<=c && curv>bestv) {bestv=curv;bestx=x;}
		return;
	}
	r-=v[t];//考虑当前物品，不管放不放入，剩余价值都要减小
	if(curw+w[t]<=c)//约束条件，判断去不去左子树
	{
		curw+=w[t];
		curv+=v[t];
		x[t]=1;
		backtrack(t+1);
		curv-=v[t];
		curw-=w[t];
	}
	if(curv+r > bestv)//限界条件，判断去不去右子树
	{	
		x[t]=0;
		backtrack(t+1);//如果不放当前货物，往下尝试
	}
	r+=v[t];//还原，表示两个子树都不去，这个情况往下不考虑了
}

附：01背包问题中对限界条件的进一步优化 计算一个更紧的理论界，筛掉更多不可能得到解的分支。

计算出单价（价值除以重量）
当前结点往下总价值的理论上界有三个部分：
- 第一部分：已经装进去的价值，这个数是根据当前结点的子集序列算出来的
- 第二部分：还能装进去的价值。优先装剩余物品中单价高的，装完如果还能装下单价次高的就装，以此类推直到装不下
- 第三部分：忽略“整数物品”的条件，把刚才那个刚好装不下的物品拆成小数个物品强行把背包填满
例如：背包容量：50 单价：05、15、25、27、30
价值：12、30、44、46、50
单价排名：12435

现在计算子集树中 110 结点的总价值理论上界：
- 第一部分：已经装进去的：第一件、第二件，价值 $12+30=42$，背包剩余容量 $50-5-15=30$
- 第二部分：还能往里装的。前三件是已经定好装不装的，现在考虑第四件第五件物品，优先从单价最高的第四件物品考虑，发现可以装下，总价值 $42+46=88$ 背包剩余容量 $30-27=3$。考虑单价次高的第五件物品，装不下了。
- 第三部分：强行填满背包。用刚才装不下的第五件物品，填满背包剩余的 $3$，这部分价值即单价乘以重量即 $\dfrac{50}{30}\times3=5$。总价值 $88+5=93$。这个 93 就是总价值上界

最大团问题

对于一个无向图，选出几个点。如果这些点两两都有边直接相连，则称这些点和这些边构成一个完全子图，又称为团。几个点构成的团就叫几团。现在求任意一个无向图中最大的团是多少。

还是子集树问题，就是当前点取不取的问题。

//全局：curn当前团大小，bestn最大团大小，x当前子集序列，bestx最优子集序列
void backtrack(int t)//考虑第t个点
{
	if(t>n)//触底，判断，更新，返回
	{
		if(curn>bestn) bestn=curn,bestx=x;
		return;
	}
	if(/*t号点与已有的那些点都相连*/)//约束条件
	{
		x[t]=1;curn++;//设置左分支
		backtrack(t+1);
		curn--;x[t]=0;//还原
	}
	if(curn+n-t>bestn)//如果加上剩余的能够超过最优解则尝试，否则剪枝
	{
		x[t]=0;
		backtrack(t+1);
	}
}

这个算法是 $O(n2^n)$ 的。

4.2 排列树回溯模型

思路：对于一个序列，选一个数放到最前面，剩下的全排列。这个程序生出来的树称为排列树，最后的解即为全排列。

//全局：x为解，n为位数
void backtrack(int t)
{
	if(t>n) {print(x); return;}
	for(int i=t;i<=n;i++)//对于序列内的每一个数，这里相当于以前的几个分支
	{
		swap(x[t],x[i]);//把这个数扔到序列开头
		backtrack(t+1);
		swap(x[t],x[i]);//还原
	}
}

游商问题

游商问题（Traveling Salesman Problem, TSP，aka 旅行售货员问题/货郎担问题）描述如下：某游商要到若干城市推销商品，已知各个城市之间的旅费，求一条从驻地出发、经过每个城市再回到驻地的路线，使得总旅费最小。

累了先贴一下ppt

n 皇后问题

n 皇后问题描述如下：在一个 $n\times n$ 的棋盘上摆 $n$ 个皇后，使得他们不能互相攻击。（皇后的攻击范围：自己所在行、列、斜线）

累了，先贴ppt。两种做法

第一种：重新写限界条件和约束条件
第二种：用排列树，扣除斜线重叠的部分

4.3 符号三角形

无法提前更新最优解，因为必须全部做完才出结果

数据结构与算法设计 - 图

Sun, 05 Jan 2025 00:00:00 GMT

封面图源 https://www.eet-china.com/mp/a363612.html

图的定义

有向图：点和弧。弧：尖括号+两个点
无向图：点和边。边：圆括号+两个点，相当于两个方向的弧重在一起
点和顶点是一个东西

图的基本假设：不考虑自环、不考虑平行边（即完全一致的两条线。注意对于有向图，一个 a 到 b 一个 b 到 a，这不叫平行边，因为这是两条不同的线。如果是无向图则是平行边）

弧或边带权的图称为网，有向网或无向网

若两个点之间有一条边或弧，则称这两个点为邻接点，并称这条边与这两个顶点相关联。与某个点相关联的边的数目称为顶点的度。在有向图中，根据边是 to 这个点还是 from 这个点，进一步细分为入度和出度。

曰（握手原理）：对于无向图，所有点的度数之和等于边数的二倍；对于有向图，出度之和等于入度之和

子图：从图的边集和点集中抽一些构成的一个新图

对于一个有 $n$ 顶点的图

含有 $C_n^2=\dfrac{n(n-1)}{2}$ 条边的无向图称为完全图，即任意两个点之间都有边
含有 $A_n^2=n(n-1)$ 条弧的有向图称为完全图，即任意两个点之间都有双向边
若边数 $e<n\log n$ 则称为稀疏图，否则称为稠密图

路径。路径上边的数目称为路径长度。简单路径：顶点不重复。简单回路：第一个顶点和最后一个顶点相同的简单路径

连通图：任意两个点之间存在路径相同
对于非连通图，各个极大连通子图称为这个图的连通分量
对于有向图，若任意两个顶点之间存在一条有向路径，则成为强连通图
非强连通图也有各个极大强连通子图，称为强连通分量

图的存储

邻接矩阵

无向图的邻接矩阵是对称阵，有边就是 1，没边就是 0（没有自环，所以自己和自己之间是 0）。求顶点的度，就是求对应行的和。打印图的时间复杂度 $O(n^2)$。firstneighbor 就是从左往右扫第一个非零的，$O(n)$

有向图的邻接矩阵非对称，左边竖着排的 to 上面横着排的，能到就是 1，不能到就是 0。求顶点的出度，即求横行和；求顶点的出度，即求纵列和

邻接表

把邻接点串在一起放在数组里。适合稀疏图。

无向图。求 firstneighbor $O(1)$，nextneighbor $O(e)$，打印图 $O(n+e)$

有向图，分为出边表和入边表

邻接多重表

有向图的邻接多重表（十字链表），不仅有点结构（vbox，粉色）还有边结构（ebox，紫色）

无向图的邻接多重表。path1 即与 vertex1 关联的下一条边，path2 即与 vertex2 关联的下一条边。顶点的度，就是沿着 path1 有多少个边结点。整个图一共 e 个边结点。

图的遍历

深度优先搜索

深度优先搜索 (Depth First Search, DFS)：一直往下走，走不通回头，换条路再走，直到无路可走。

选择一个起始点 u 作为当前结点，执行如下操作：

访问当前结点，并且标记该结点已被访问，然后跳转到第二步
如果存在一个和当前结点相邻并且尚未被访问的结点 v，则将 v 设为当前结点，继续执行第一步
如果不存在这样的 v，则进行回溯，回溯的过程就是回退当前结点

这就是一个递归过程，生成了一棵树，称为深度优先生成树 (DFS Tree)

bool visited[MAXVNUM];
void DFS(Graph G,int v)//v是结点编号
{
	visit(v);//访问当前结点
	visited[v]=true;
	w=firstneighbor(G,v);
	while(w!=-1)
	{
		if(visited[w]==false) DFS(G,w);//没访问过就从这个邻接点开始DFS
		w=nextneighbor(G,v,w);
	}
}
void DFStraverse(Graph G)//入口
{
	for(int v=0;v<G.vnum;v++) visited[v]=false;//visited数组清空
	for(int v=0;v<G.vnum;v++) 
	{
		if(visited[v]==false)
			DFS(G,v);//没见过的点就做一遍DFS
	}
}

广度优先搜索

广度优先搜索 (Breadth First Search, BFS)：每访问一个点，就把他所有没访问过的邻接点入队，然后当前点出队，访问队首。广搜得到的路径是不带边权的最短路。

bool visited[MAXVNUM];
void BFS(Graph G,int v)
{
	queue<int> q;
	visit(v);
	visited[v]=true;
	q.push(v);
	while(q.empty()==false)
	{
		u=q.front();
		q.pop();
		w=firstneighbor(G,u);
		while(w!=-1)
		{
			if(visited[w]==false)//如果没见过，那就见一下
			{
				visit(w);
				visited[w]=true;
				q.push(w);
			}
			w=nextneighbor(G,v,w);
		}
	}
}
void BFStraverse(Graph G)//入口
{
	for(int v=0;v<G.vnum;v++) visited[v]=false;//visited数组清空
	for(int v=0;v<G.vnum;v++) 
	{
		if(visited[v]==false)
			BFS(G,v);//没见过的点就做一遍BFS
	}
}

深搜广搜的复杂度是一样的，因为相当于每一条边都要走一遍，和打印的时间复杂度是一样的

用邻接矩阵存，$O(n^2)$
用邻接表存，$O(n+e)$

最小生成树

称一张无向图是连通的，如果任意两个顶点之间存在通路。
称一个没有回路的连通图为一棵树
生成树是连通图的子图，它含有连通图中的全部 $n$ 个顶点，有且仅有足以构成一棵树的 $n-1$ 条边。因为既然要连通，那么每多一条边就意味着多一个点，如果存在环的话，多一条边并不会对连通起来的点数有贡献
最小生成树 (Mini Span Tree)，即所有生成树中边权和最小的生成树。或者说，找到一个方案，用最小的花费连通所有点。

一个典型的例子：$n$ 个城市之间要铺设光缆，使得任意两个城市之间都存在通信的链路。已知各个城市之间铺设光缆的费用，求使得总费用最低的铺设方案

最小生成树有 Prim 算法和 Kruskal 算法。本质是贪心

Prim 算法（加点法）

用一个集合存储访问过的点。选一个起始点，考虑它的所有邻边，选边权最小的邻边。将这个邻边连接的点加入集合。
现在这个集合里有两个点，把这两个点的所有邻边都考虑进来，选边权最小的邻边。检查这个邻边连接的点，如果连接的点没见过，那么将这个点加入集合，并选取这条边；如果见过了，那就顺延下去选边权第二小的，类推。
重复第二步直到所有顶点都加入集合。此时选择的邻边以及它们连通的顶点就构成了最小生成树

时间复杂度：$O(n^2)$，与边数无关，适用于稠密图

//采用邻接矩阵存图
int nearvex[MAXVNUM];//在最小生成树上、离i号点最近的那个点的编号
int lowcost[MAXVNUM];//i号点到刚才那个最近点的边权，-1表示已经在生成树中了
void prim(Graph G,int u)
{
	for(int j=0;j<G.vnum;j++)//初始化
	{
		lowcost[j]=G.edge[u][j];
		nearvex[j]=u;
	}
	lowcost[u]=-1;
	for(int i=0;i<G.vnum-1;i++)//依次向生成树上添加n-1个顶点（加上起点就是n个了）
	{
		v=min_index(lowcost);//在非-1的数当中找最小值，返回对应邻接点的编号
		lowcost[v]=-1;
		for(int j=0;j<G.vnum;j++)//修改其他顶点的最小边
		{
			if(lowcost[j]>G.edge[u][j])
			{
				lowcost[j]=G.edge[v][j];
				nearvex[j]=v;
			}
		}
	}
}

Kruskal 算法（加边法）

从整个连通图中最小的一条边开始做。不断往子图上加边，能用最小的边的就用，只要不成环就行。直到加了 n-1 条边，这棵树就出来了。合并操作、判断成环，用的是并查集。

复杂度：选最小边用小根堆做，建堆 $O(e)$，筛选复杂度 $O(\log e)$，所以总的复杂度 $O(e+(e-1)\log e)=O(e\log e)$。

两种都是贪心，但策略不同。Kruskal 从整个图的所有边进行贪心，所以适用于稀疏图。Prim 则无所谓。在贪心过程中，可能遇到存在两个最小边权的情况，这时候选哪个都可以，也就是说最小生成树不唯一。但是边权和一定是唯一的。

并查集

并查集是数据结构。其上有两个最基本的操作：并，即连接两个元素void connect(a,b)；查，即判断两个元素之间是否存在通路bool pd(a,b)

我们只需要知道两个元素之间是否存在通路，不关心它们之间到底是怎么连在一起的。所以，使用传统的存图方式显然不合适（那种是 $O(n^2)$ 的）。我们换一种存储方式，只关心元素的集合方式：

一开始每一个元素都是一个独立的集合，一旦连接一个集合中的某个元素与另一个集合的某个元素之间，我就把这两个集合揉在一起，表示这两个孤岛被联络起来了。
判断函数即判断两个元素是否属于同一个集合。

现在问题转化为：如何记录元素的集合关系。

尝试：使用一个一维数组来记录元素所属的集合。将元素进行编码，id[i]即存储编码为 i 的节点所属集合的编号。这样判断是否属于一个集合，只需要判断它们的 id 是不是一样的。但是这也有问题，就是连接两个集合的时候，要对涉及连接的每一个元素的 id 都进行修改。这是一个 $O(n)$ 的操作，显然不合适。现在问题转化为：如何实现只改变一个值

尝试：我们不记录元素的所属的集合，而记录元素的父节点。举个例子。对于下面这个集合组，我们可以写出 parent 数组：（-1 表示没跌）

| parent | -1 | 0 | 1 | -1 | 0 | 3 | -1 | | :----: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | | 元素编码 | 0 | 1 | 2 | 3 | 4 | 5 | 6 |

执行connect(5,2)，相当于把 5 的根（3）和 2 的根（0）连起来。这样只需要把 3 的 parent 改成 0 就行了。但是这也有问题，这样的连接实际上是一个建树的过程。当这棵树高度很大的时候，爬树找根的过程很慢（考虑极端情况：单支树）。我们应当让生成的树的高度尽可能小。现在问题转化为：如何让生成的树不偏

对于刚才这个例子，考虑：把 3 连到 0 上，最终的高度为 2；把 0 连到 3 上，最终高度为 3。可以看出，把小树连到大树上，可以使得最终的高度小一些。至于如何量化一棵树的大小，可以使用树中元素数量，也可以用树的高度，两个都可以使得生成树尽可能平衡。

因此对策就出来了：保留 parent 数组，只不过作出如下修改：原本我们用 -1 表示根节点，现在还用负数，但负越多代表树越大。例如刚才的例子，如果用元素个数衡量树的大小，那么parent[0]=-4、parent[3]=-2，代表 0 这棵树大小为 4，3 这棵树大小为 2，因此把 3 连到 0 上。采用这种规则建树，最坏情况是 $O(\log n)$，够用了。

还能凹。建立一个备忘录，在执行pd函数遍历的过程中，直接把元素的父节点设到根上，这样路径上的每一个节点深度都是 1。这称为路径压缩(Path Compression)。这个算法可以把复杂度降低到几乎常数时间。

最短路

Dijkstra

只能做非负边权（注意非负边权包括 0）。可以求单源点到任意点的最短路。本质是广搜+贪心。

Dijkstra 是一个从起点开始按边数往外扩展最短路径的过程。设一个点列（有序），一开始里面什么都没有。设一个数组 dist，记录起始点到每一个点的最少花费。
从起点开始，走一步，有的点能一步到达，有的点到不了。对于那些可以到达的点，dist 数组内则记录这一步的花费；对于那些到不了的点，花费记为无穷大。根据 dist 数组，选择花费最少的那个点加入点列。这就是到第一个点的最短路径
现在这个点列里面新增了一个点，我们看看利用这个点能不能使得起点到其他点的距离更短，如果短则更新，如果比原来还长（或者到不了别的点、距离为无穷大）就别更新，保持原来的长度。这时候再根据 dist 数组，选择花费最少的那个点加入点列。这就是到第二个点的最短路径
重复，得到第三个点的最短路径、第四个点……

这是 $O(n^2)$ 的。但是求任意两个点之间的话他做不了，当然你可以对每个点都做一次 Dijkstra，那样就是 $O(n^3)$，也好不到哪里去

模板

void dijkstra(Graph &G,int v,int dist[],int path[])//v起点
{
	int s[MAXVNUM];//最短路的顶点集（用子集序列表示）
	n=G.vnum;
	//初始化---------------------------------
	for(int i-0;i<n;i++)
	{
		dist[i]=G.edge[v][i];
		s[i]=0;
		if(dist[i]<INF) path[i]=v;
		else path[i]=-1;
	}
	path[v]=v;//将顶点v加入最短路路径
	s[v]=1;//顶点进入最短路顶点集
	dist[v]=0;//没有自环
	//--------------------------------------
	for(int i=0;i<n-1;i++)//求到其他点的最短路径
	{
		int u=min_index(dist);//找dist中最小值的编号
		s[u]=1;//把他加入最短路的顶点集
		for(int k=0;k<n;k++)
		{
			if(s[k]==0 && dist[u]+G.edge[u][k]<dist[k])
			{//顶点没见过，并且比原来的记录小，可以更新
				dist[k]=dist[u]+G.edge[u][k];//执行更新
				path[k]=u;//记录最短路前驱
			}
		}
	}
}

Floyd

允许有负边权，不允许有负回路（否则路径可以在负回路中转圈，每转一圈花费都会变小）。可以得到任意两点之间的最短路。本质是动态规划。根据邻接矩阵，依次选择一个点作为中间点，看一下经过中间节点之后路径和会不会更小一些，如果小则更新最短路径。标路径的方法：都是记录这个点的前驱，生成路径的时候倒着回去找到起点即可

下图是一个例子。其中

$D$ 矩阵表示任意两点之间最短路径长度（左边纵列数字为起点，上方横排数字为终点）
$P$ 矩阵表示“$D$ 对应的最短路径中，终点的前驱点”。-1 表示不存在前驱。例如 $P_0$ 的第二行第三列是 $0$，表示“从2到3的最短路径中，3的前驱是0”
$D_{-1}$ 是起始状态
$D_0$ 表示选取点 0 作为中间点后的最短路径长度矩阵，$D_1$ 表示选取点 1 作为中间点后的最短路径长度矩阵，依次类推。

最后得到 $D_3$ 和 $P_3$，已经蕴含了网络中任意两个节点最短路径的所有信息

例如从 3 走到 0，根据 $D$ 矩阵，第 3 行第 0 列的值为 11，所以 3 到 0 的最短路径长度为 11。
然后根据 $P$ 矩阵确定路径。3 到 0 的最短路径上（即 $P$ 矩阵的第三行），0 的前驱是 2，2 的前驱是 1，1 的前驱是 3（起点）。因此路径是 3 - 1 - 2 - 0。

模板

void floyd(Graph G,int d[][MAXVNUM],int path[][MAXVNUM])
{//d[i][j]是顶点i到j之间的最短路径长度
	int n=G.vnum;
	for(int i=0;i<n;i++)//初始化
	{
		for(int j=0;j<n;j++)
		{
			d[i][j]=G.edge[i][j];//一开始直接复制邻接矩阵，就是图上的D_{-1}
			if(i==j) path[i][j]=-1;
			else if(d[i][j]<INF) path[i][j]=i;
			else path[i][j]=-1;
		}
	}
	for(int k=0;k<n;k++)//选取中间节点k
	{
		for(int i=0;i<n;i++)
		{
			for(int j=0;j<n;j++)
			{
				if(d[i][k]+d[k][j]<d[i][j])
				{
					d[i][j]=d[i][k]+d[k][j];
					path[i][j]=path[k][j];
				}
			}
		}
	}
}

它是 $O(n^3)$ 的

Bellman-Ford

允许有负边权，允许有负回路（算法能判断出存在负回路）。可以得到单源点到任意点的最短路。基本思路：一开始所有点的路径都是无穷大。对于一趟考察，按照某一个固定的顺序考察所有边，如果引入这条边能够使得路径变小，则引入这条边并更新路径最小值。总共做 $n-1$ 趟（因为 n 个点连通只需要 n-1 条边。当然如果中间某一趟下来一次都没有更新，就可以直接结束了），做完后得到的数组就是单源点最短路。标路径：也是记他的前驱

判断负回路的方法：做完之后再做一趟考察，如果这一过程把某个数更新了，说明最短路径还能减，即存在负回路。

它是 $O(ne)$ 的，但是边数一般会很大，是 $n^2$ 级别的。所以如果不是有负回路或者负边权，还是回到 Dijkstra 或者 Floyd。

控制科学笔记 - 参数估计

Thu, 12 Jun 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

优化问题：就是求最值。涉及两类函数

$\min$ 或 $\max$，意思就是求它后面那个函数的值
${\rm argmin}$ 或 ${\rm argmax}$，意思就是求“使得它后面东西最大”时自变量的值
- 符号下面写的东西：自变量+自变量范围
基本求法：令对自变量的偏导为零

对于一个方程组 $Ax=b$，定义它的最小二乘解为 $\mathrm{argmin}\ |Ax-b|^2$

偏导结论

函数对向量（或矩阵）求偏导，相当于对里头的每一个量都偏导一次，然后把偏导的结果按照自变量在原来矩阵中的位置重新组织成矩阵

约定：

$x$ 为 $n$ 维列向量
$y$ 为 $m$ 维列向量

则

$\dfrac{ {\partial}(\alpha x)}{ {\partial}x}=\alpha^{\rm T}{}$，其中 $\alpha$ 为 $n$ 维行向量
$\dfrac{ {\partial}(\alpha x)}{ {\partial}x^{\rm T} }=\alpha$
$\dfrac{ {\partial}(x^{\rm T}\beta)}{ {\partial}x}=\beta$，其中 $\beta$ 为 $n$ 维列向量
$\dfrac{ {\partial}(x^{\rm T}Ax)}{ {\partial}x}=(A^{\rm T}+A)x$，其中 $A$ 为 $n\times n$ 方阵
$\dfrac{ {\partial}(x^{\rm T}By)}{ {\partial}x}=By$，其中 $B$ 为 $n\times m$ 方阵
$\dfrac{ {\partial}|Ax|^2}{ {\partial}x}=\dfrac{ {\partial}x^{\rm T}A^{\rm T}Ax}{ {\partial}x}=2A^{\rm T}Ax$，其中 $A$ 为任意矩阵，$b$ 为任意可以相加的列向量
最小二乘解 $$ \begin{aligned}\dfrac{ {\partial}|Ax-b|^2}{ {\partial}x}&=\dfrac{ {\partial}(x ^{\rm T}A^{\rm T}-b ^{\rm T})(Ax-b)}{ {\partial}x}=\dfrac{ {\partial}(x ^{\rm T}A ^{\rm T}Ax-x ^{\rm T}A ^{\rm T}b-b ^{\rm T}Ax+b ^{\rm T}b)}{ {\partial}x}\&=2A ^{\rm T}Ax-2A ^{\rm T}b=2A ^{\rm T}(Ax-b)\end{aligned}{} $$

问题描述与记号规定

想象一个黑箱系统，它里头有 $n$ 个未知量，我们打包成列向量 $\theta$，称为“参数”。我的目标是估计这个参数。

现在让这个系统动起来。它会吞进去一堆东西，我们打包成列向量 $u$，称为“输入”；吐出来一堆东西，我们打包成列向量 $y$，称为“输出”。我们在 0 时刻、1 时刻、……、N-1 时刻，观测这个系统，记录这些时刻的输入，我们记为 $u(0),,u(1),,\cdots,,u(N-1)$；以及这些输入在下一时刻所产生的输出，我们记为 $y(1),,y(2),,\cdots,,y(N)$

使用线性模型来拟合这个系统，也就是说，假定系统的输出关于那 $n$ 个未知参数是线性的，也即对于 $t$ 时刻的输出，存在一个系数矩阵（aka 测量向量，measurement vector）$\phi(k)$ 使得 $\phi^\mathrm T(k)\cdot\theta$ 能够拟合 $y(k+1)$，于是 $\theta$ 也就是方程组 $y(k+1)=\phi^\mathrm{T}(k)\cdot\theta$ 的数值解。（注意，$\phi$ 中可以含有过去时刻的 $y$ 和 $u$，因为对于现在时刻，过去时刻是已知的。）

显然，观测的数据越多，拟合效果越好。本章后面所讲的所有方法，就是要解决：怎么利用这么多输入输出数据，具体求出这个数值解。

梯度下降法

思路：迭代之，每次利用一个新数据，更新已有的估计值

先验误差与后验误差

先验误差，即在更新参数之前，用当前的参数看看与真实情况差多少，再更新参数： $$ \varepsilon^o(k+1)=y(k+1)-\phi^\mathrm{T}(k)\cdot\hat\theta({\color{orange}k})\quad $$
后验误差，即先更新参数，再用更新后的参数看看这一轮迭代的效果如何： $$ \quad\varepsilon(k+1)=y(k+1)-\phi^\mathrm{T}(k)\cdot\hat\theta({\color{orange}k+1}) $$

推导：

(1) 先验误差情形。误差函数定为 $\dfrac12|\varepsilon^o(k+1)|^2$。令更新沿着梯度反方向 $$ \begin{aligned} \Delta\theta&= -F\dfrac{\partial,|\varepsilon^o(k+1)|^2}{2\ \partial\theta(k)}\ &= -F\dfrac{\partial,|y(k+1)-\phi^\mathrm{T}(k)\theta(k)|^2}{2\ \partial\theta(k)}\ &= F\phi (k)\big(y(k+1)-\phi^\mathrm{T}(k)\theta(k)\big)\ &= F\phi (k)\varepsilon^o(k+1) \end{aligned} $$

(2) 后验误差情形。这意味着误差函数要改为 $\dfrac12|\varepsilon(k+1)|^2$，取 $k!+!1$ 时刻的梯度。

令 $\Delta\theta$ 沿误差函数梯度反方向。误差函数的梯度和之前类似：$\dfrac{\partial,|\varepsilon(k+1)|^2}{2\ \partial\theta(k+1)}=-\phi (k)\varepsilon(k+1)$，但是不能只用 $\Delta\theta=F\phi(k)\varepsilon(k+1)$ 来计算，因为在计算 $\varepsilon(k!+!1)$ 之前需要先知道 $\theta(k!+!1)$，相当于互为因果了。所以要把 $\varepsilon(k!+!1)$ 从 $\theta(k!+!1)$ 中剥离开： $$ \begin{aligned}\ \varepsilon(k+1)&= y(k+1)-\phi^\mathrm{T}(k)\big(\theta(k)+\Delta\theta\big)\ &= y(k+1)-\phi^\mathrm{T}(k)\theta(k)-\phi^\mathrm{T}(k)\Delta\theta\ &= \varepsilon^o(k+1)-\phi^\mathrm{T}(k)\Delta\theta\ &= \varepsilon^o(k+1)-\phi^\mathrm{T}(k)F\phi (k)\varepsilon(k+1)\ \varepsilon(k+1)&= \dfrac{\varepsilon^o(k+1)}{1+\phi^\mathrm{T}(k)F\phi (k)} \end{aligned} $$ 这样就分开了，于是就可以说 $\Delta\theta=F\phi(k)\varepsilon(k+1)=\dfrac{F\phi(k)\varepsilon^o(k+1)}{1+\phi^\mathrm{T}(k)F\phi (k)}{}$

最小二乘法

刚才是逐个考虑，而这个方法则是同时把所有数据都考虑进来。将这些数据同时列出并写成矩阵表达式： $$ \left{ \begin{aligned} y(1)&=\phi^\mathrm{T}(0)\cdot\theta\ y(2)&=\phi^\mathrm{T}(1)\cdot\theta\ &\cdots\ y(N)&=\phi^\mathrm{T}(N-1)\cdot\theta \end{aligned} \right.\ \Rightarrow\ \begin{bmatrix}y(1)\y(2)\\vdots\y(N)\end{bmatrix}=\begin{bmatrix}\phi^\mathrm{T}(0)\\phi^\mathrm{T}(1)\\vdots\\phi^\mathrm{T}(N-1)\end{bmatrix}\cdot\theta $$ 记这个表达式为 $$ y_N=\Phi_N \cdot\theta $$ 因此 $\theta$ 就是这个方程组的数值解。这块就不用迭代了，直接最小二乘法

各种改进的最小二乘法

算那么大一个 $\Phi$ 矩阵毕竟很麻烦，且只用一条公式去推导的时候稳定性也很差，因此做出改良。赌他不考推导，死记（最后真的没考）

递归最小二乘

递归形式具有如下形式：$\Delta\theta=$ 增益 $\times$ 测量向量 $\times$ 误差 $$ \begin{aligned} F(k+1)&= F(k) - \dfrac{F(k)\phi(k)\phi^\mathrm{T}(k) F(k)}{1 + \phi(k)^\mathrm{T} F(k)\phi(k)}\ \hat{\theta}(k+1)&= \hat{\theta}(k) + F(k+1)\phi(k)\varepsilon^o(k+1) \end{aligned} $$

加权最小二乘

使用一个正定对称矩阵 $W_N$，规定误差函数中每个参数各自误差的权重，也即优化 $J=\varepsilon^\mathrm{T}\cdot W_N\cdot\varepsilon$

非递归： $$ \hat\theta_{WLS}=\big(\Phi_N^\mathrm{T}W_N\Phi_N\big)^{-1}\Phi_N^\mathrm{T}W_Ny_N $$

递归： $$ \begin{aligned} \overline{F}_W(k+1) &= F_W(k+1)\phi(k)w(k) = \dfrac{F_W(k)\phi(k)}{\frac{1}{w(k)} + \phi^\mathrm{T}(k)F_W(k)\phi(k)}\ F_W(k+1) &= \left( \boldsymbol{I} - \overline{F}_W(k+1)\phi^\mathrm{T}(k) \right) F_W(k)\ \hat{\theta}(k+1)&= \hat{\theta}(k) + \overline{F}_W(k+1)\varepsilon^o(k+1) \end{aligned} $$

带遗忘因子的递归最小二乘

按顺序迭代 $$ \begin{aligned} \overline F_W(k+1)&=\dfrac{F_W(k)\phi(k)}{\lambda+\phi^{\rm T}(k)F_W(k)\phi(k)}\ F_W(k+1)&=\big(\boldsymbol{I}-\overline F_W(k+1)\phi^{\rm T}(k)\big)F_W(k)\dfrac1\lambda\ \hat\theta(k+1)&=\hat\theta(k)+\overline F_W(k+1)\varepsilon^o(k+1) \end{aligned} $$

带正则化的最小二乘

对于 $J=|y_N-\Phi_N\theta|^2$，引入正则项

L2正则化：即最小化 $J+\lambda|\theta|^2$，结论：$\hat\theta=\left( \Phi_N^\mathrm{T} \Phi_N + \lambda I\right)^{-1} \Phi_N^\mathrm{T}y_N$

Tikhonov正则化（吉洪诺夫）：即最小化 $J+\gamma\theta^\mathrm{T}\boldsymbol{K}\theta$，其中后面那项记为 $\Omega(\theta)$，$\boldsymbol{K}{}$ 一般是对称的。结论：$\hat\theta=\left( \Phi_N^\mathrm{T} \Phi_N + \gamma \boldsymbol{K} \right)^{-1} \Phi_N^\mathrm{T}y_N$

带约束的最小二乘

等式约束：例如约束 $\theta\in \mathrm{col}(U)$，做法：$\theta=Ub$，这样 $b$ 就是一个不受约束的变量，只要对 $b$ 做无约束的最小二乘，然后 $\hat\theta_{LS}=U\hat b_{LS}{}$

不等式约束：递推最小二乘。如果递推过程中某一项 $\theta$ 违反了这个约束，则映射到另一个空间上：$\rho=F(k)^{-1/2}\theta$，在这个另外的空间上投影（沿着法向量）到约束边界上，然后再反向映射回原来的那个空间

例题：

故湘，风 Lyrics

Thu, 24 Jul 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

原曲歌词整编自豆瓣白头豕的解读文章：科普安利｜Gai 要唱的《故湘，风》原曲歌词解析

live版歌词整编自《歌手2025》第10期节目播出字幕

Original version

天上的月亮诶 --Ranzer--
照进我的心里面
如果要走冇走
是不晓得好远

天上的月亮诶
照进湘江河里面
流的是沙水是酒
呷一口蔑苦的耶（意：太苦了呀）

挖一瓢辣椒配点米饭
搂出了名堂又把那个看（意：给哪个看）
外面的世界有规矩
从不打屋里的讲
肚子再饿又呷得几餐
一杯好酒它从不嫌晚
这一世人啊
走的路处处是坎

故乡的风牵着母亲河的水 --Ranzer--
心里的苦浸的是油盐的味
滚烫的雨终究相会长天共秋水
咿呀咿兹哟看鸟儿往南飞

故乡的风牵着母亲河的水
今夜抬头不见星月与我同醉
滚烫的雨终究相会长天共秋水
咿呀咿兹哟看鸟儿往南飞

搞了太多事成功的总是别个 --功夫胖--
这一世人总归是要有个结果
没上过一天班但录过几个节目
听这首歌你又想到那个人呐

那杂别屎少屁多 --盛宇--
那杂别是咂铁坨（意：那个人眼高手低是个硬茬）
几杂别拉帮结伙
哪杂别又真的铁我
你晓得登卵人生苦短（意：你根本不懂人生苦短）
搞得就搞搞不成耶卵（意：作罢）
人情冷暖你晓得登卵
拌哒脚只有我爹来接我

你看今天晚上月亮真的圆 --功夫胖--
它把我的思念送到你跟前
口袋铸穿还是没得一分钱
月亮娭毑带我们回到十年前（ai1 jie3，意：祖母）

讲点别的月有阴晴圆缺 --盛宇--
看悲欢离合身边缘起缘灭
破镜重圆期待着那一天
生老病死没见的那一面

Country road take me home --合--
笑看风云尽在悲喜中
Country road take me home
故乡的风吹在我的心中
Country road take me home
笑看风云尽在悲喜中
Country road take me home
故乡的风吹在我的心中

故乡的风牵着母亲河的水 --GAI--
心里的苦浸的是油盐的味
滚烫的雨终究相会长天共秋水 --Ranzer--
咿呀咿兹哟看鸟儿往南飞

故乡的风牵着母亲河的水
今夜抬头不见星月与我同醉
滚烫的雨终究相会长天共秋水 --GAI--
咿呀咿兹哟看鸟儿往南飞

Live version

天上的月亮诶
照进我的心里面
如果要走冇走
是不晓得有好远

天上的月亮诶
照进湘江河里面
流的是沙水是酒
吃一口咩苦的哎

挖一瓢辣椒配点米饭
闯出了名堂又给哪个看
外面的世界有规矩
从不打屋里的讲
肚子再饿又吃得几餐
一杯好酒它从不嫌晚
这一世人啊
走的路处处是坎

故乡的风牵着母亲河的水
心里的苦浸的是油盐的味
滚烫的雨终究相会长天共秋水
咿呀咿兹哟看鸟儿往南飞

故乡的风牵着母亲河的水
今夜抬头不见星月与我同醉
滚烫的雨终究相会长天共秋水
咿呀咿兹哟看鸟儿往南飞

雨打在青石板上
回头快看不清家的方向
人总像浮萍荡啊荡
天又快黑咯
把云都烧得滚烫

（常记起）意气风发的几年风流
（藏一缕）现在无奈的几许通透
（蓦回首）风华正茂而未知乡愁
（曾记否）书生意气也挥斥方遒

风萧萧雨潇潇
行囊重归期杳
半生浮沉付江潮
一瓢辣子烫寂寥

月儿啊圆又缺
念我的娘和爹
正月里推船嘛不想家哟
不到远方看不见

浏阳河
转过了几道弯
几十里水路到心上

水中啊有个少年在渡江
风吹去一首歌谣
翻滚的浪潮对我唱

故乡的风牵着母亲河的水
心里的苦浸的是油盐的味
滚烫的雨终究相会长天共秋水
咿呀咿兹哟看鸟儿往南飞

故乡的风牵着母亲河的水
今夜抬头不见星月与我同醉
滚烫的雨终究相会长天共秋水
咿呀咿兹哟看鸟儿往南飞

ohh
滚烫的雨终究相会长天共秋水
咿呀咿兹哟看鸟儿往南飞

天上的月亮诶
照进我的心里面
如果要走冇走
是不晓得有好远

控制科学笔记 - 子空间辨识

Wed, 11 Jun 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

本章解决这样一个问题：对于一个 LTI 离散状态空间方程模型（注意与系统建模中的区别） $$ \left{ \begin{aligned} x_{k+1}&= Ax_k+Bu_k\ y_k&= Cx_k+Du_k \end{aligned} \right. $$ 给定系统若干个输入 $u_0,\cdots,u_{s-1}{}$ 和对应的 $s$ 个输出 $y_k$（输入为 $m$ 维列向量、输出为 $l$ 维列向量），求出：

系统的阶数 $n$
四个矩阵 $A$、$B$、$C$、$D$（相似变换意义下等价即可）

子空间方程

推导

假定当前时刻 $k=i$. 取 $k=0\sim (i-1)$ 这 $i$ 个下标，也就是相对于当前时刻的所有“过去状态”： $$ \left|\ \begin{aligned} x_1&= Ax_0+Bu_0\ x_2&= Ax_1+Bu_1\ &= A^2x_0+ABu_0+Bu_1\ x_3&= Ax_2+Bu_2\ &= A^3x_0+A^2Bu_0+ABu_1+Bu_2\ &\cdots\ x_i&= A^ix_0+\sum\limits_{k=0}^{(i-1)}A^{(i-1)-k}Bu_k \end{aligned} \right. \quad \left|\ \begin{aligned} y_0 &= C x_0 + D u_0\ y_1 &= Cx_1+Du_1\ &= C A x_0 + C B u_0 + D u_1\ y_2 &= Cx_2+Du_2\ &= C A^2 x_0 + C A B u_0 + C B u_1 + D u_2\ &\cdots\ y_{i-1} &= CA^{i-1}x_0+\sum\limits_{k=0}^{(i-2)}CA^{(i-2)-k}Bu_k+Du_{i-1} \end{aligned} \right. $$ 把 $y$ 的部分写成矩阵形式 $$ \begin{bmatrix} y_0\y_1\\vdots\y_{i-2}\y_{i-1} \end{bmatrix}

\begin{bmatrix} C\ CA\ \vdots\ CA^{i-2}\ CA^{i-1} \end{bmatrix} x_0 + \begin{bmatrix} D & 0 & \cdots & 0 & 0\ CB & D & \cdots & 0 & 0\ \vdots & \vdots & \ddots & \vdots & \vdots \ CA^{i-3}B & CA^{i-4}B & \cdots & D & 0\ CA^{i-2}B & CA^{i-3}B & \cdots & CB & D \end{bmatrix} \begin{bmatrix} u_0\u_1\\vdots\u_{i-2}\u_{i-1} \end{bmatrix} $$ 记 $\Gamma_i$ 为 $x_0$ 前面的那一坨大矩阵、记 $H_i$ 为 $u$ 前面的那一坨系数矩阵. 于是可将表达式压缩为 $$ \begin{bmatrix} y_0\y_1\ \vdots\ y_{i-1} \end{bmatrix}

\Gamma_ix_0 + H_i \begin{bmatrix} u_0\u_1\\vdots\u_{i-1} \end{bmatrix} $$

刚才我们的 $k$ 是从 $0\sim(i-1)$. 如果我们把下标整体往后移一位，即 $k$ 从 $1\sim i$，这样等号左边的 $y$ 矩阵就是 $y_1\sim y_i$，右边就是 $x_1$，$u$ 矩阵就是 $u_1\sim u_i$. 很巧妙的在于，$\Gamma_i$ 和 $H_i$ 并不会变，因为这两个系数矩阵实际上表达的是“相对于第一项的关系”，而量的个数没有变（都是 $i$），也就是说相对于 $x_1$，后面的 $i$ 个数都有相同的矩阵表示. 同理，整体移动两位、三位……，两个系数矩阵都是一样的. 因此，把多个 $y$ 矩阵横着拼到一起时，系数矩阵可以提取出来.

从 $0$ 拼到 $j-1$（$j$ 只是一个参数，表示我们将使用多少数据进行分析. 有点像以前的迭代次数） $$ \begin{bmatrix} y_0 & y_1 & \cdots & y_{j-1} \ y_1 & y_2 & \cdots & y_{j} \ \vdots & \vdots & \ddots & \vdots \ y_{i-1} & y_{i} & \cdots & y_{i+j-2} \end{bmatrix}

\Gamma_i \begin{bmatrix} x_0 & x_1 & \cdots & x_{j-1} \end{bmatrix} + H_i \begin{bmatrix} u_0 & u_1 & \cdots & u_{j-1} \ u_1 & u_2 & \cdots & u_{j} \ \vdots & \vdots & \ddots & \vdots \ u_{i-1} & u_{i} & \cdots & u_{i+j-2} \end{bmatrix} $$ 我们再次压缩表达式为 $$ Y_p=\Gamma_iX_p+H_iU_p $$ 这里的 $p$ 就是 past“过去状态”的意思。

现在考虑“未来状态”，特别地，是未来状态相对于当前状态（即 $k=i$）的情况，因此下标又要整体移动 $i$，也即从 $i$ 拼到 $i+j-1$： $$ \begin{bmatrix} y_i & y_{i+1} & \cdots & y_{i+j-1} \ y_{i+1} & y_{i+2} & \cdots & y_{i+j} \ \vdots & \vdots & \ddots & \vdots \ y_{2i-1} & y_{2i} & \cdots & y_{2i+j-2} \end{bmatrix}

\Gamma_i \begin{bmatrix} x_i & x_{i+1} & \cdots & x_{i+j-1} \end{bmatrix} + H_i \begin{bmatrix} u_i & u_{i+1} & \cdots & u_{i+j-1} \ u_{i+1} & u_{i+2} & \cdots & u_{i+j} \ \vdots & \vdots & \ddots & \vdots \ u_{2i-1} & u_{2i} & \cdots & u_{2i+j-2} \end{bmatrix} $$ 压缩表达式为 $$ Y_f=\Gamma_iX_f+H_iU_f $$ 这里的 $f$ 就是 future 的意思。

过去和未来的情况都有了，我们使用一开始算出来的各个 $x$ 的表达式，在过去与未来之间建立联系. 将 $i$ 时刻和 $0$ 时刻之间的关系 $x_i= A^ix_0+\sum\limits_{k=0}^{(i-1)}A^{(i-1)-k}Bu_k$ 写成矩阵形式、并压缩表达式为： $$ x_i= A^ix_0+\begin{bmatrix}A^{i-1}B&A^{i-2}B&\cdots&AB&B\end{bmatrix}\begin{bmatrix}u_0\u_1\\vdots\u_{i-2}\u_{i-1}\end{bmatrix}=A^ix_0+\Delta_i\begin{bmatrix}u_0\u_1\\vdots\u_{i-1}\end{bmatrix} $$

同样地，依然可以把下标整体移动，而两个系数矩阵不变. 然后再把 $0$ 到 $j-1$ 拼到一起： $$ \begin{bmatrix}x_i&x_{i+1}&\cdots&x_{i+j-1}\end{bmatrix}=A^i\begin{bmatrix}x_0&x_1&\cdots&x_{j-1}\end{bmatrix}+\Delta_i\begin{bmatrix}u_0&u_1&\cdots&u_{j-1}\u_1&u_2&\cdots&u_j\\vdots&\vdots&\ddots&\vdots\u_{i-1}&u_i&\cdots&u_{i+j-2}\end{bmatrix} $$ 自然地，过去与未来 $x$ 被分别打包在一起了，因此可以再次压缩表达式为 $$ X_f=A^iX_p+\Delta_iU_p $$

最后一步. 我们实际上只想知道输入 $Y$ 和输出 $U$，状态变量可以进一步消去

第①式移项后代入第③式消 $X_p$，压缩表达式为 $$ \begin{aligned}X_f&= A^i\Gamma_i^\dagger(Y_p-H_iU_p)+\Delta_iU_p\&= \begin{bmatrix}A^i\Gamma_i^\dagger&,&\Delta_i-A^i\Gamma_i^\dagger H_i\end{bmatrix}\begin{bmatrix}Y_p\U_p\end{bmatrix}\X_f&= L_pW_p\end{aligned} $$
相应地第②式改为 $Y_f=\Gamma_iX_f+H_iU_f=\Gamma_iL_pW_p+H_iU_f$

小结

对一个 $m$ 维输入、$l$ 维输出的状态空间方程模型 $$ \left{ \begin{aligned} x_{k+1}&= Ax_k+Bu_k\ y_k&= Cx_k+Du_k \end{aligned} \right. $$ 我们有三条子空间辨识方程：

消去状态变量的形式：

三条假设与两条推论

为了让辨识算法有效，需要假定系统足够好，即满足：

这意味着，$X_f$ 是过去数据空间和未来数据交集的一组基

由于系统是可达和可观测，系统的状态 $X_f$ 可以由输入输出数据唯一确定。因此，$X_f$ 必定是 $W_p$ 和 $W_f$ 张成空间中的一个元素，所以 $X_f \in \text{span}(W_p)$ 且 $X_f \in \text{span}(W_f)$，也即 $$ \text{span}(X_f) \subseteq \text{span}(W_p) \cap \text{span}(W_f) $$

(2) 证明 $\text{span}(W_p) \cap \text{span}(W_f) \subseteq \text{span}(X_f)$

$\forall,v \in \text{span}(W_p) \cap \text{span}(W_f)$，$\exists,a,,b,\ \text{s.t.}{}$ $$ v = W_p\cdot a = W_f\cdot b $$ 而 $W_p$ 和 $W_f$ 都是由 $X_f$ 以及他们自身线性组合得到的，所以交集中的向量 $v$ 必定可表示为 $X_f\cdot c$，所以 $v \in \text{span}(X_f)$，也即 $$ \text{span}(W_p) \cap \text{span}(W_f) \subseteq \text{span}(X_f) $$

确定性子空间辨识

N4SID

Numerical algorithm for Subspace State Space System IDentification 子空间状态空间系统辨识的数值算法

使用消去状态变量的形式 $Y_f=\Gamma_iL_pW_p+H_iU_f$，做斜交投影： $$ \begin{aligned} Y_f/!{U_f}W_p&= \Gamma_iL_pW_p/!{U_f}W_p+H_iU_f/!_{U_f}W_p\ &= \Gamma_iL_pW_p\ &= \Gamma_iX_f \end{aligned} $$

对 $\mathcal{O}=Y_f/!_{U_f}W_p$ 做 SVD $$ \mathcal{O}=\left[ U_1 \quad U_2 \right] \begin{bmatrix} \Sigma_r & 0 \ 0 & 0 \end{bmatrix} \begin{bmatrix} V_1^\mathrm{T} \ V_2^\mathrm{T}\end{bmatrix}=U_1\Sigma_rV_1^\mathrm{T};(,=\Gamma_iX_f) $$ 为了得到 $\Gamma_iX_f$，从 $\Sigma_r$ 中间劈成两个矩阵相乘（原因后面会解释），劈开处乘上相似变换阵：

$\Gamma_i = U_1 \Sigma_r^{1/2}\color{orange}T$
$X_f = {\color{orange}T^{-1} }\Sigma_r^{1/2} V_1^\mathrm{T}{}$

下面就可以进行辨识了。由于 $T$、$V_1$ 都满秩，得 $n=\mathrm{r}(X_f)=\mathrm{r}(\Sigma_r)$，也即系统维数为 $\mathcal O$ 矩阵非零奇异值的个数。

然后就是求 $ABCD$。我们知道 $X_f=[x_{i},,x_{i+1},,\cdots,,x_{i+j-1}]$，把所有涉及这些 $x$ 的状态空间方程都写出来，写成矩阵形式并压缩表达式为 $$ \begin{bmatrix} X_{i+1,,j-1} \ Y_{i,,j-1} \end{bmatrix}

\begin{bmatrix} A & B \ C & D \end{bmatrix} \begin{bmatrix} X_{i,,j-1} \ U_{i,,j-1} \end{bmatrix} $$ 其中大写的 $X$、$Y$、$U$ 表示把小写打包，下角标两个数，第一个数表示打包的起点，第二个数表示打包的个数，即 $$ \begin{aligned} X_{i+1,,j-1} &= [x_{i+1},,\cdots,,x_{i+j-1}]\ Y_{i,,j-1} &= [y_{i},,y_{i+1},,\cdots,,y_{i+j-2}]\ X_{i,,j-1} &= [x_{i},,x_{i+1},,\cdots,,x_{i+j-2}]\ U_{i,,j-1} &= [u_{i},,u_{i+1},,\cdots,,u_{i+j-2}]\ \end{aligned} $$ 既然 $X_f$ 都算出来了，那刚才定义的这四个东西就都是已知的，因此 $ABCD$ 可以用最小二乘法解出（注意这里是估系数矩阵，所以和传统的最小二乘在结论上有一些区别，但推导是一样的） $$ y= \Theta x $$ $$ \begin{aligned} \dfrac{ {\partial}|y-\Theta x|^2}{ {\partial}\Theta}&= 2(y-\Theta x)x^\mathrm{T}=0\ \hat\Theta&= yx^\mathrm{T}(xx^\mathrm{T})^{-1} \end{aligned} $$

（至于为什么要从 $\Sigma_r$ 中间劈开：既然我们只需要求出相似意义下的解，那么理论上怎么劈开都行，但从 $\Sigma_r$ 中间劈开可以保证奇异值平均地分配给两个正交矩阵，数值尺度上比较均衡）

MOESP

Multivariable Output Error State sPace 多变量输出误差状态空间

做LQ分解 $$ \begin{bmatrix}U_p\Y_p\end{bmatrix}= \begin{bmatrix}L_{11}&0\L_{21}&L_{22}\end{bmatrix}\begin{bmatrix}Q_1^{\mathrm T}\Q_2^{\mathrm T}\end{bmatrix} $$

$$ \Rightarrow,\left{ \begin{aligned} U_p&= L_{11}Q_1^{\mathrm T}\ Y_p&= L_{21}Q_1^{\mathrm T}+L_{22}Q_2^{\mathrm T}\ \end{aligned} \right. $$

由子空间方程之“过去状态拼一起”：$Y_p=\Gamma_iX_p+H_iU_p$，把 $Y_p$ 和 $U_p$ 的 LQ 表达式代进去： $$ \boxed{\Gamma_iX_p+H_iL_{11}Q_1^{\mathrm T}= L_{21}Q_1^{\mathrm T}+L_{22}Q_2^{\mathrm T} }\tag{1} $$ 两边右乘 $Q_2$ 得 $$ \Gamma_iX_pQ_2=L_{22} $$ 和 N4SID 类似，为了得到 $\Gamma_iX_pQ_2$，只需对 $L_{22}{}$ 做奇异值分解： $$ L_{22}=\left[ U_1 \quad U_2 \right] \begin{bmatrix} \Sigma_r & 0 \ 0 & 0 \end{bmatrix} \begin{bmatrix} V_1^\mathrm{T} \ V_2^\mathrm{T}\end{bmatrix}=U_1\Sigma_rV_1^{\mathrm T}\ (,=\Gamma_iX_pQ_2) $$ 然后从 $\Sigma_r$ 中间劈开得

$\Gamma_i= U_1\Sigma_r^{1/2}{}$
$X_pQ_2= \Sigma_r^{1/2}V_1^\mathrm{T}{}$

然后就可以开始辨识了：$n=\mathrm{r}(X_p)={\mathrm r}(\Sigma_r)$（因为 $Q_2$ 正交，即满秩）

而 $\Gamma_i=\begin{bmatrix}C\CA\\vdots\CA^{i-1}\end{bmatrix}$，于是可以解 $A$ 和 $C$：

$\Gamma_i$ 的开头 $l$ 行就是矩阵 $C$
$(\Gamma_i$ 去掉开头 $l$ 行$)=(\Gamma_i$ 去掉最后 $l$ 行$)\times A$，解方程即得 $A$

至于 $B$ 和 $D$，我们再次回到 (1) 式，两边同时左乘 $U_2^\mathrm{T}{}$；因为 $\Gamma_i$ 和 $L_{22}{}$ 都是以 $U_1$ 开头的，由 $U$ 正交性得，左乘 $U_2^\mathrm{T}{}$ 时整个项都变成 0，于是 $$ \begin{aligned} \bcancel{U_2^\mathrm{T}\Gamma_iX_p}+U_2^\mathrm{T}H_iL_{11}Q_1^{\mathrm T}= U_2^\mathrm{T}L_{21}Q_1^{\mathrm T}+\bcancel{U_2^\mathrm{T}L_{22}Q_2^{\mathrm T} } \end{aligned} $$ 去掉 $Q_1^\mathrm{T}{}$，$L_{11}{}$ 移到右边去，把 $H_i$ 的具体表达式代入： $$ U_2^\mathrm{T}\begin{bmatrix} D & 0 & \cdots & 0 & 0\ CB & D & \cdots & 0 & 0\ \vdots & \vdots & \ddots & \vdots & \vdots \ CA^{i-3}B & CA^{i-4}B & \cdots & D & 0\ CA^{i-2}B & CA^{i-3}B & \cdots & CB & D \end{bmatrix}=U_2^\mathrm{T}L_{21}L_{11}^{-1} $$ 中间这个大矩阵 $H_i$ 就是待求的，其他东西都是已知的。我们把左边 $U_2^\mathrm{T}{}$ 每 $l$ 列分块、右边每 $m$ 列分块（以匹配 $H_i$ 的分块模式），可以分成 $i$ 块 $$ \begin{aligned} U_2^\mathrm{T}&=[\mathcal{L}_1,,\mathcal{L}2,,\cdots,,\mathcal{L}i]\ U_2^\mathrm{T}L{21}L{11}^{-1}&=[\mathcal{M}_1,,\mathcal{M}_2,,\cdots,,\mathcal{M}_i] \end{aligned} $$ 分块之后，实际上是阶梯型，而且 $B$ 和 $D$ 可以彻底分开 $$ \begin{aligned} \mathcal{M}_1&=\mathcal{L}_1 D + (\mathcal{L}2 C + \cdots + \mathcal{L}{i-1} C A^{i-3} + \mathcal{L}_i C A^{i-2})B \ \mathcal{M}_2&=\mathcal{L}_2 D + (\mathcal{L}3 C + \cdots + \mathcal{L}i C A^{i-3}) B \ &\ \ \vdots \ \mathcal{M}{i-1}&= \mathcal{L}{i-1} D + (\mathcal{L}i C )B \ \mathcal{M}{i}&=\mathcal{L}_i D \end{aligned} $$ 注意到括号里面很像 $\Gamma_i$，于是记 $\bar{\mathcal{L}_k}=\left[\mathcal{L}k, \mathcal{L}{k+1}, \cdots, \mathcal{L}_i\right]$，就可以写成矩阵表达式 $$ \begin{bmatrix} \mathcal{M}_1 \ \mathcal{M}2 \ \vdots \ \mathcal{M}{i-1} \ \mathcal{M}_i \end{bmatrix}

\begin{bmatrix} \mathcal{L}_1 & \bar{\mathcal{L}2}\Gamma{i-1} \ \mathcal{L}2 & \bar{\mathcal{L}3}\Gamma{i-2} \ \vdots & \vdots \ \mathcal{L}{i-1} & \bar{\mathcal{L}_i}\Gamma_1 \ \mathcal{L}_i & 0 \end{bmatrix} \begin{bmatrix} D \ B \end{bmatrix} $$ 然后只需要使用最小二乘法（传统的就行了）就能解 $B$ 和 $D$

==BD这一段的构造，逻辑还是不够丝滑==

随机子空间辨识

问题描述

在状态空间方程中引入一个随机偏移 $$ \left{ \begin{aligned} x_{k+1}&= Ax_k+Bu_k+w_k\ y_k&= Cx_k+Du_k+v_k \end{aligned} \right. $$ 其中 $w_k$ 和 $v_k$ 是均值为 $\vec 0$ 的白噪向量，它们的协方差如下定义 $$ \begin{aligned} Q&= E[w_kw_k^\mathrm{T}]\ R&= E[v_kv_k^\mathrm{T}]\ S&= E[w_kv_k^\mathrm{T}] \end{aligned} $$ 注意中括号里头，两个角标必须一致，角标不一致时协方差为零（因为白噪的意思就是不同时刻互相独立）。并且进一步假定 $E[x_kw_k^\mathrm{T}]=E[x_kv_k^\mathrm{T}]=0$

考试只考没有 $B$ 和 $D$ 的情形，也即只考虑 $$ \left{ \begin{aligned} x_{k+1}&= Ax_k+w_k\ y_k&= Cx_k+v_k \end{aligned} \right. $$

记号

定义：

状态协方差 $\Sigma=E[x_kx_k^\mathrm{T}]$
输出协方差 $\Lambda_i=E[y_{k+i},y_k^\mathrm{T}]$（相差 $i$ 时间的）
状态输出协方差 $G=E[x_{k+1}y_k^\mathrm{T}]$

这些协方差应当与 $k$ 无关，表示系统足够稳定。于是：

$$ \begin{aligned} \Sigma&= E[x_{k+1}x_{k+1}^\mathrm{T}]\ &= E\big[(Ax_k+w_k)(Ax_k+w_k)^\mathrm{T}\big]\ &= AE[x_kx_k^\mathrm{T}]A^\mathrm{T}+E[w_kw_k^\mathrm{T}]\ &= A\Sigma A^\mathrm{T}+Q \end{aligned} $$ $$ \begin{aligned} G&= E[x_{k+1}y_{k}^\mathrm{T}]\ &= E\big[(Ax_k+w_k)(Cx_k+v_k)^\mathrm{T}\big]\ &= AE[x_kx_k^\mathrm{T}]C^\mathrm{T}+E[w_kv_k^\mathrm{T}]\ &= A\Sigma C^\mathrm{T}+S \end{aligned} $$ $$ \begin{aligned} \Lambda_0&= E[y_{k}y_{k}^\mathrm{T}]\ &= E\big[(Cx_k+v_k)(Cx_k+v_k)^\mathrm{T}\big]\ &= CE[x_kx_k^\mathrm{T}]C^\mathrm{T}+E[v_kv_k^\mathrm{T}]\ &= C\Sigma C^\mathrm{T}+R \end{aligned} $$

现在考虑 $\Lambda_i$，先把前面一个 $y$ 用 $Cx+v$ 转成 $x$，再用 $Ax+w$ 一直向前递归直到 $x_{k+1}{}$： $$ \begin{aligned} \Lambda_i&= E[y_{k+i}y_{k}^\mathrm{T}]\ &= E\big[(Cx_{k+i}+v_{k+i})y_{k}^\mathrm{T}\big]=CE\big[x_{k+i}y_{k}^\mathrm{T}\big]+0\ &= CE\big[(Ax_{k+i-1}+w_{k+i-1})y_{k}^\mathrm{T}\big]=CAE\big[x_{k+i-1}y_{k}^\mathrm{T}\big]+0\ &= CAE\big[(Ax_{k+i-2}+w_{k+i-2})y_{k}^\mathrm{T}\big]=CA^2E\big[x_{k+i-2}y_{k}^\mathrm{T}\big]+0\ &=\ \ \cdots\ \ =CA^{i-1}E\big[x_{k+1}y_{k}^\mathrm{T}\big]+0\ &= CA^{i-1}G \end{aligned} $$

核心原理

说穿了其实就是“用样本均值代替期望”。也即，只要观测的次数 $j$ 足够大，我就可以认为 $$ E[X]=\dfrac1j\sum\limits_{k=0}^{j-1}x_k $$

用这个思路，有如下观察： $$ \begin{aligned} \Lambda_i&= E[y_{k+i}y_k^\mathrm{T}]\ &= \dfrac1j\sum\limits_{k=0}^{j-1}y_{k+i}y_k^\mathrm{T}\ &= \dfrac1j\begin{bmatrix}y_i&y_{i+1}&\cdots&y_{i+j-1}\end{bmatrix}\begin{bmatrix}y_0^\mathrm{T}\y_{1}^\mathrm{T}\\vdots\y_{j-1}^\mathrm{T}\end{bmatrix}\ &= \dfrac1jY_{i,,j}Y_{0,,j}^\mathrm{T} \end{aligned} $$ 其中大写 $Y$ 的含义和 N4SID 中提到的是一样的，下角标第一个数表示打包的起点，第二个数表示打包的个数

此时我定义： $$ \Phi_{[A,,B]}=\dfrac1jAB^\mathrm{T} $$

那么 $$ \Lambda_i=\Phi_{[Y_{i,,j},,Y_{0,,j}]} $$

控制科学笔记 - 空间投影

Tue, 10 Jun 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

QR分解/LQ分解

即将矩阵分解为“正交矩阵$Q$ $\times$ 上三角矩阵$R$”的形式。其中 $Q$ 为单位正交向量组拼起来的矩阵，$R$ 为对角线下方（不含）全零的矩阵。

为什么要QR分解

我们经常需要解 $A\vec x=\vec b$。如果 $A$ 是上三角阵，相当于已经做好高斯消元了（因为上三角相当于阶梯形方程组），那么只需要从下往上回代就解完了

如果不是上三角阵，那么就需要求 $\vec x=A^{-1}\vec b$，求逆太难了。但是我们知道正交矩阵的求逆非常简单：$Q^{-1}=Q^{\rm T}{}$

结合二者：如果能够分解成 $A=QR$，那么 $QR,\vec x=\vec b\Rightarrow R\vec x=Q^{\rm T},\vec b$，只需要通过一次转置就可以转化为好解的阶梯形方程组

方法

将 $A$ 按列分块，把列向量组正交化。然后把这些向量模长归一，拼在一起就是 $Q$。这种求 QR 分解的方法叫做 Gram-Schmidt 正交化方法。但是实际运用一般不用这个方法，涉及减法可能丢失精度。

Gram-Schmidt 标准正交化：每进来一个向量，就从这个向量中减去它在已有向量上的投影（投影长 $\times$ 单位方向向量），然后再归一化例如 $A=\begin{bmatrix}\alpha_1&\alpha_2&\alpha_3\end{bmatrix}$。首先正交化 $\lbrace\alpha_1,\alpha_2,\alpha_3\rbrace$ $$ \begin{aligned} \beta_1 &= \alpha_1\ \beta_2 &= \alpha_{2}-{(\alpha_2,u_1)}u_{1}\ \beta_3 &= \alpha_{3}-{(\alpha_3,u_1)}u_{1}-{(\alpha_3,u_2)}u_2 \end{aligned} \Longrightarrow\ \ \begin{aligned} u_1 &= \beta_1,/,||\beta_1||\ u_2 &= \beta_2,/,||\beta_2||\ u_3 &= \beta_3,/,||\beta_3|| \end{aligned} $$

然后把减号项移到左边，即用 $u$ 表示 $w$，写成矩阵形式自然就是 QR 分解了 $$ A=[\alpha_1,\alpha_2,\alpha_3]=[u_1, u_2, u_3] \begin{bmatrix} ||\beta_1|| & {(\alpha_2,u_1)} & {(\alpha_3,u_1)}\ 0 & ||\beta_2|| & {(\alpha_3,u_2)}\ 0 & 0 & ||\beta_3|| \end{bmatrix} $$

约化QR和完全QR

$u$ 不一定是3列的，因此 $Q$ 也不一定是方阵，但是不影响 $Q^{\rm T} Q=I$ 这个事。因此所有计算都是对的，只是公式上需要把“逆”改成“伪逆”。这种叫做约化QR分解

伪逆矩阵 $A^\dagger$ 满足以下四个 Penrose 条件：

$A A^\dagger A = A$
$A^\dagger A A^\dagger = A^\dagger$
$(A A^\dagger)^{\rm T} = A A^\dagger$
$(A^\dagger A)^{\rm T} = A^\dagger A$

当矩阵 $A$ 是方阵且可逆时：其伪逆 $A^\dagger$ 就是它的逆矩阵 $A^{-1}$，并且此时 $A^{-1}$ 既是左逆也是右逆。
当矩阵 $A$ 是列满秩矩阵（$A$ 是 $m \times n$ 矩阵且秩为 $n$，$m \geq n$）时：伪逆矩阵 $A^\dagger$ 就是它的左逆 $A^L$，满足 $A^L A = I_n$。因为在这种情况下，$A^{\rm T} A$ 是可逆的，伪逆矩阵可以表示为 $A^\dagger = (A^{\rm T} A)^{-1} A^{\rm T}$。
当矩阵 $A$ 是行满秩矩阵（$A$ 是 $m \times n$ 矩阵且秩为 $m$，$m \leq n$）时：伪逆矩阵 $A^\dagger$ 就是它的右逆 $A^R$，满足 $A A^R = I_m$。此时，伪逆矩阵可以表示为 $A^\dagger = A^{\rm T} (A A^{\rm T})^{-1}$。

如果仍然想要 $Q$ 是方阵，就再多引入几个正交基补成方阵即可，这叫做完全QR分解

LQ分解

即对 $A^{\rm T}$ 进行 QR 分解。$L$ 表示下三角矩阵。假定 $A$ 的 QR 分解为 $A=QR$，则 $A^{\rm T}=R^{\rm T} Q^{\rm T}$。记 $L=R^{\rm T}$，这是一个下三角矩阵，也即 LQ 分解的结果表示为 $$ A^{\rm T}=LQ^{\rm T} $$

这里写 $Q^{\rm T}$ 而不写 $Q$，可以不用管，这些都是记号上的琐碎。$Q^{\rm T}$ 只是为了表示“行向量正交化”，而以前的 $Q$ 则表示“列向量正交化”。

总之操作上只需要记住，LQ分解就是“对行向量组正交化”

正交投影/斜交投影

首先，什么是空间的正交：我们说两个空间正交，就是说在两个空间中各取一任意向量，这两个向量都是正交的。曰：若两空间正交，则各自的正交基也正交

投影的概念和之前是一样的。理解上你先假设空间是一维的，用向量当中的投影概念来理解。

我们这里考虑的空间是矩阵行空间。$A/B$，表示求 $A$ 的行空间在 $B$ 的行空间上的投影。

投影矩阵

例如我要将某个东西投影到 $B$ 的行空间，我希望“投影”这个操作可以使用一个矩阵来表示，记为 $\Pi_B$。也即，如果我要求向量 $x$ 在 ${\rm row}(B)$ 上的投影，只需要左乘投影矩阵即可：$\Pi_Bx$

投影后的向量应当满足：

首先它肯定得先 $\in{\rm row}(B)$，不然怎么叫“在 ${\rm row}(B)$”上的投影呢？所以肯定是 $B$ 每一行的线性组合，即存在某列向量 $y$ 使得 $\Pi_Bx=B^{\rm T} y$
减掉投影结果之后，剩下的东西应该垂直于投影面，这是投影“正交性”的内涵。即 $x-\Pi_Bx$ 应垂直于 ${\rm row}(B)$，也就是垂直于 $B$ 的每一行，即 $B(x-\Pi_Bx)=\vec 0$

先消 $\Pi_B$，解得 $y=(BB^{\rm T})^{-1}Bx$，于是 $\Pi_Bx=B^{\rm T} y=B^{\rm T} (BB^{\rm T})^{-1}Bx$，也即投影矩阵 $$ \Pi_B=B^{\rm T} (BB^{\rm T})^{-1}B $$

曰：投影矩阵是对称的。这很好证：外面两个 $B$ 没变，而对于中间那个 $(BB^{\rm T})^{-1}$，只需要证明求逆（或伪逆）和转置可以交换： $$ \begin{aligned} MM^{-1}=I\ \ {\xRightarrow{\rm T}}\ (MM^{-1})^{\rm T}&=I^{\rm T}=I\ (M^{-1})^{\rm T} {\color{orange}M^{\rm T}}&=I\ (M^{-1})^{\rm T}=(&{\color{orange}M^{\rm T}})^{-1} \end{aligned} $$

正交投影

以前使用投影我们得到了“正交分解”，这里也希望做类似操作，即将空间拆成“平行分量”与“垂直分量”，即 $$ A=A/B+A/B^\perp $$

$A/B$，也即“$A$ 的行空间投影到 $B$ 的行空间”，只需要把它的每一行都投影过去即可。只不过投影矩阵要作用在列向量上、且返回一个列向量，因此乘投影矩阵之前要先把 $A$ 转置一下，最后还得转回来： $$ A/B=(\Pi_BA^{\rm T})^{\rm T}=A\Pi_B^{\rm T}=A\Pi_B=AB^{\rm T} (BB^{\rm T})^{-1}B $$ 这个就是 ${\rm row}(A)$ 在 ${\rm row}(B)$ 上的分量（投影）。进一步推得，垂直方向的分量 $$ A/B^\perp=A-A\Pi_B=A(I-\Pi_B) $$

使用LQ分解求正交投影

一个用于数值计算的方法。

我们说“正交分解”，就是把一个向量根据“某一给定向量”拆成平行与垂直两部分。对应到正交投影，就是要把 ${\rm row}(A)$ 以某种方式“组合进” ${\rm row}(B)$ 中。而正交化正是其中一种方法。

考虑 $M=\begin{bmatrix}B\A\end{bmatrix}$，对它的行做正交化。这样当做完矩阵 $B$ 的部分时，$B$ 的正交基就出来了。接下来开始做矩阵 $A$ 的部分，它把 $A$ 行空间中“平行于 $B$”的部分全部抹掉了，只剩下“垂直于 $B$”的部分。

做完之后，把正交矩阵按 $B$ 和 $A$ 分成上下两块 $$ M=\begin{bmatrix}B\A\end{bmatrix}=LQ^{\rm T}=\begin{bmatrix}L_{11}&\boldsymbol0 \ L_{21}&L_{22}\end{bmatrix}\begin{bmatrix}Q_1^{\rm T}\ Q_2^{\rm T}\end{bmatrix} $$ 这上下两块，上面一块是 ${\rm row}(B)$ 的正交基，下面一块是 ${\rm row}(A)$ 中垂直于 ${\rm row}(B)$ （也即 $B^\perp$）的那一部分的正交基。

单独提取 $A$ 的部分：$A=L_{21}Q_1^{\rm T}+L_{22}Q_2^{\rm T}$，前一项就是 $B$ 基线性组合，后一项就是 $B^\perp$ 基线性组合，所以前一项就是落在 ${\rm row}(B)$ 里的 $A/B$，后一项就是落在 ${\rm row}(B)^\perp$ 里的 $A/B^\perp$。也即

$$ \begin{aligned} A/B&= L_{21}Q_1^{\rm T}\ A/B^\perp&= L_{22}Q_2^{\rm T} \end{aligned} $$

这种理解其实不太准确，之后LQ分解求斜交投影时会细说。如果要严谨，应该这样写：

斜交投影

引入第二个投影空间 ${\rm row}(C)$，构建联合投影空间。垂直分量和之前类似，即 $A\big/\begin{bmatrix}B\C\end{bmatrix}^\perp$。平行分量 $A\big/\begin{bmatrix}B\C\end{bmatrix}$ 进一步拆到两个投影空间上，斜杠后面是投影空间、角标是另一个投影空间。于是 $$A=A/!_CB+A/!_BC+A\big/\begin{bmatrix}B\C\end{bmatrix}^\perp$$

下面考虑怎么求 $A/!_CB$。

之前是 $A/B=AB^{\rm T} (BB^{\rm T})^{-1}B$，把 $B$ 换成 $\begin{bmatrix}B\C\end{bmatrix}$： $$ \begin{aligned} A/\begin{bmatrix}B\C\end{bmatrix}&= A\begin{bmatrix}B\C\end{bmatrix}^{\rm T} \left(\begin{bmatrix}B\C\end{bmatrix}\begin{bmatrix}B\C\end{bmatrix}^{\rm T}\right)^{-1}\begin{bmatrix}B\C\end{bmatrix}\ &= A\left[B^{\rm T},,C^{\rm T}\right]\left(\begin{bmatrix}B\C\end{bmatrix}\left[B^{\rm T},,C^{\rm T}\right]\right)^{-1}\begin{bmatrix}B\C\end{bmatrix} \end{aligned} $$ 这个式子仍然可以看作是 $A\Pi$ 的形式，即投到 $BC$ 的联合行空间上。

我们想要的 $A/!_CB$ 只是 ${\rm row}(B)$ 上的分量，所以只需要取 $B$ 那一部分的基，也就是说只需要提取前几行 $B$ 的部分、最后 $C$ 的部分直接去掉。因此 $$ \begin{aligned} A/!_CB&= \left(A\big/\begin{bmatrix}B\C\end{bmatrix}\right)\begin{bmatrix}I&{\boldsymbol0}\{\boldsymbol0}&{\boldsymbol0}\end{bmatrix}\ &= A\left[B^{\rm T},,C^{\rm T}\right]\left(\begin{bmatrix}B\C\end{bmatrix}\left[B^{\rm T},,C^{\rm T}\right]\right)^{-1}\begin{bmatrix}B\C\end{bmatrix}\begin{bmatrix}I&{\boldsymbol0}\{\boldsymbol0}&{\boldsymbol0}\end{bmatrix}\ &= A\left[B^{\rm T},,C^{\rm T}\right]\left(\begin{bmatrix}B\C\end{bmatrix}\left[B^{\rm T},,C^{\rm T}\right]\right)^{-1}\begin{bmatrix}B\{\boldsymbol0}\end{bmatrix} \end{aligned} $$

对于 $A/!_BC$，不能简单地提取后几行。因为 $C$ 在联合空间的下面，做正交化的时候 ${\rm row}(C)$ 的基向量中平行于 ${\rm row}(B)$ 的部分都被抹掉了，因此后几行根本不是 ${\rm row}(C)$ 原来的基。正确的做法是，在构造联合空间时把 $C$ 放在上面： $$ \begin{aligned} A/!_BC&= \left(A\big/\begin{bmatrix}C\B\end{bmatrix}\right)\begin{bmatrix}I&{\boldsymbol0}\{\boldsymbol0}&{\boldsymbol0}\end{bmatrix}\ &= A\left[C^{\rm T},,B^{\rm T}\right]\left(\begin{bmatrix}C\B\end{bmatrix}\left[C^{\rm T},,B^{\rm T}\right]\right)^{-1}\begin{bmatrix}C\B\end{bmatrix}\begin{bmatrix}I&{\boldsymbol0}\{\boldsymbol0}&{\boldsymbol0}\end{bmatrix}\ &= A\left[C^{\rm T},,B^{\rm T}\right]\left(\begin{bmatrix}C\B\end{bmatrix}\left[C^{\rm T},,B^{\rm T}\right]\right)^{-1}\begin{bmatrix}C\{\boldsymbol0}\end{bmatrix} \end{aligned} $$

使用LQ分解求斜交投影

思路和正交是一样的，投影空间放上面、被投影空间放到下面，即 $$ M=\begin{bmatrix}B\C\A\end{bmatrix} $$ LQ 分解之，$Q^{\rm T}$ 矩阵按 $B$、$C$、$A$ 分成上中下三块 $$ M=\begin{bmatrix}B\C\A\end{bmatrix}= \begin{bmatrix} L_{11} & 0 & 0 \ L_{21} & L_{22} & 0 \ L_{31} & L_{32} & L_{33} \end{bmatrix} \begin{bmatrix} Q_1^{\rm T} \ Q_2^{\rm T} \ Q_3^{\rm T} \end{bmatrix} $$ 从中提取 $A=L_{31}Q_1^{\rm T}+L_{32}Q_2^{\rm T}+L_{33}Q_3^{\mathrm{T}}$

这时候，不能像之前正交投影一样直接对应分解式。$L_{33}Q_3^{\rm T}$ 的确对应 $A\big/\begin{bmatrix}B;C\end{bmatrix}^\perp$，但是不能说 $L_{31}Q_1^{\rm T}=A/!CB$，也不能说 $L{32}Q_2^{\rm T}=A/!_BC$，因为 $B$ 和 $C$ 不一定正交。见下图，注意这是平面图而非立体图，${\rm row}(C)$ 是斜交轴

$Q_1^{\rm T}$ 的确是 ${\rm row}(B)$ 的基，但是 $Q_2^{\rm T}$ 不是 ${\rm row}(C)$ 的基，只是 ${\rm row}(C)$ 垂直于 ${\rm row}(B)$ 的部分。因此为了表达 ${\rm row}(C)$ 的基，我们从 LQ 分解中写出 $C$ 的提取式 $$ C=L_{21}Q_1^{\rm T}+L_{22}Q_2^{\rm T} $$ 解得 $Q_2^{\rm T}=L_{22}^{-1}(C-L_{21}Q_1^{\rm T})$，我们把这个东西往 $L_{32}Q_2^{\rm T}$ 里面代： $$ \begin{aligned} A&= L_{31}Q_1^{\rm T}+L_{32}Q_2^{\rm T}+L_{33}Q_3^{\rm T}\ &= L_{31}Q_1^{\rm T}+L_{32}L_{22}^{-1}(C-L_{21}Q_1^{\rm T})+L_{33}Q_3^{\rm T}\ &= (L_{31}-L_{32}L_{22}^{-1}L_{21})Q_1^{\rm T}+L_{32}L_{22}^{-1}C+L_{33}Q_3^{\rm T} \end{aligned} $$ 这三个基就出来了。因此 $$ \begin{aligned} A/!CB&= (L{31}-L_{32}L_{22}^{-1}L_{21})Q_1^{\rm T}\ A/!BC&= L{32}L_{22}^{-1}C\ &= L_{32}L_{22}^{-1}\begin{bmatrix}L_{21}&L_{22}\end{bmatrix}\begin{bmatrix}Q_1^{\rm T}\Q_2^{\rm T}\end{bmatrix}\ A\big/\begin{bmatrix}B\C\end{bmatrix}^\perp&= L_{33}Q_3^{\rm T} \end{aligned} $$

推论（用公式或看图立即可得）：

$A/!_AC=0$
$A/!_CA=A$

数学分析记忆佛脚（下）

Sun, 23 Jun 2024 00:00:00 GMT

目录（点击章节名称跳转到原始笔记）

（数学分析记忆佛脚上）↗

主线第一篇：极限论
- Chapter 1 函数与极限
- Chapter 2 导数与微分
- Chapter 3 函数与极限二周目
主线第二篇：积分学
- Chapter 4 不定积分
- Chapter 5 定积分
支线 1：Chapter 6 线性空间理论概述
支线 2：Chapter 7 常微分方程

（数学分析记忆佛脚下）↗

主线第三篇：多元微积分
- Chapter 8 欧氏空间上的函数与极限
- Chapter 9 多元函数微分学 ↗
- Chapter 10 重积分
- Chapter 11 曲线积分与曲面积分
主线第四篇：级数与广义积分
- Chapter 12 数项级数
- Chapter 13 函数项级数
- Chapter 14 广义积分与含参变量积分
- Chapter 15 Fourier级数与Fourier积分

Chapter 8 欧氏空间上的函数与极限

8.1 欧氏空间与解析几何

（这一节最终放到第六章中）
点列的极限

8.2 开集与闭集

补集、内点、外点、边界点、孤立点、聚点；聚点三个等价定义：点的任一邻域都有集合中无穷多个点；点的任一邻域都有集合中不同于这个点的点；集合中可以构造出一个点列（无穷多项不为零）收敛于这个点

开集、闭集（单点集为闭集）；开集之补为闭，闭集之补为开；开集之并为开集，闭集之交为闭集，开集之有限交为开集，闭集之有限并为闭集

8.3 完备性等价表述

矩形套定理. 推广：Cantor 闭区域套定理
BW 定理，有界点列必有收敛子列. 推广：聚点原理：有界无穷点集必有聚点
Cauchy 收敛准则，点列收敛 $\Leftrightarrow\forall\varepsilon>0,\exists N \ \text{s.t.}\ k,l>N$ 时 $|\vec{x_k}-\vec{x_l}|<\varepsilon$
Heine-Borel 定理，紧集等价于有界闭集. 紧集：任意开覆盖必有有限子覆盖的集合

8.4 多元函数的极限与连续

多元函数，多元函数在某点的极限，多元函数的连续. 多元初等函数在定义域内连续. 连续的复合还是连续

存在极限（全面极限）：不管怎么趋向都有极限且极限相同.
累次极限：先 x 取极限后 y 取极限或者先 y 后 x.
关系：
- 累次极限与全面极限无关，累次极限之间也无关.
- 如果全面极限存在，累次极限中先取的极限也存在，则累次极限必存在，且等于全面极限.
- 如果全面极限存在且两个累次极限都存在，则它们都相等
- 函数在连续点上的累次极限与全面极限均存在且相等

8.5 向量值函数

向量值函数连续，等价于每一个分函数在这个点都连续

8.6 有界闭集上的连续函数

边界点的邻域：邻域与集合相交的部分. 以此定义紧集上的连续. “有界闭集上的连续函数”，以下简称“闭连函数”

连续映射将紧集映射到紧集. 由此推出有界性定理（闭连函数必有界）、最值定理（闭连函数的值域存在最大最小值）.

连通集. 连通有界闭集才是闭区间的推广. 连续映射把连通集映射到连通集（特别地，连续函数将连通紧集集映射到闭区间）. 由此推出介值定理.

一致连续：存在一个与点的选取无关的 $\varepsilon$. Cantor 定理：闭连必一致连

Chapter 9 多元函数微分学

分为五个副章节：

Section 1: 9.1~9.6 偏导与全微分：偏导，全微分，高阶偏导，高阶微分，向量值函数导数微分，复合函数微分
Section 2: 9.7~9.8 多元中值定理：中值定理，Taylor 公式
Section 3: 9.9~9.10 隐函数：隐函数存在定理，逆映射存在定理
Section 4: 9.11~9.12 切线法平面、法线切平面
Section 5: 9.13~9.14 多元函数极值：无条件极值，条件极值

9.1 偏导

偏导的定义，方向导数的定义. 注意方向导数要求除以的方向向量要是单位向量. 方向向量可以表示为 $(\cos\alpha,\cos\beta,\cos\gamma,\cdots)$. 当方向与坐标轴相同时等于偏导，相反时等于偏导的负数. 对多元函数而言，可导即是可偏导.

“可导必连续”不成立，原因：偏导只考虑导的那个方向的性质，而连续要所有方向的性质

9.2 全微分

定义：$\exists A,B \ \text{s.t.}{}$ 某一点处 $\Delta f=A\Delta x+B\Delta y+o(\sqrt{(\Delta x)^2+(\Delta y)^2})$，则 $f$ 可微，${\rm d}f=A {\rm d}x+B {\rm d}y$ 称为 $f$ 在该点的全微分

可微是一个很强的条件：

可微 $\Rightarrow$ 可导，$A=f_x(x_0,y_0)$，$B=f_y(x_0,y_0)$
可微 $\Rightarrow$ 方向导数存在，且对于 $\vec v=(\cos\alpha,\cos\beta,\cdots)$，$\dfrac{\partial f}{\partial\vec v}=f_x(x_0,y_0,\cdots)\cdot\cos\alpha+f_y(x_0,y_0,\cdots)\cdot\cos\beta+\cdots$
可微 $\Rightarrow$ 连续
可导 $\xcancel{\Rightarrow}{}$ 可微，可导都推不出连续了当然推不出可微
可导+连续+任一方向导数都存在 $\xcancel{\Rightarrow}{}$ 可微
可微唯一充分条件：偏导均连续 $\Rightarrow$ 可微

9.3 高阶偏导

两种表示方法：$\dfrac{\partial^2f}{\partial x\partial y}{}$，$f_{xy}{}$. 注意两个的顺序，第一种是先 y 后 x，第二种是先 x 后 y. 混合偏导之间不一定相等.

混合偏导连续 $\Rightarrow$ 混合偏导相等. 若函数有 $n$ 阶连续偏导，导的次数 $\leqslant n$，则混合偏导的顺序不影响结果. 注：反过来则不行，即混合偏导相等 $\xcancel\Rightarrow$ 混合偏导连续

Leibniz 二项展开仍然可以用

9.4 高阶微分

${\rm d}f=\dfrac{\partial f}{\partial x}{\rm d}x+\dfrac{\partial f}{\partial y}{\rm d}y$，若 $f_x$、$f_y$ 可微、$f_{xy}{}$、$f_{yx}{}$ 连续，则可以再微分，${\rm d}^2f=({\rm d}x\dfrac{\partial}{\partial x}+{\rm d}y\dfrac{\partial}{\partial y})^2f$. 类推：${\rm d}^kf=({\rm d}x\dfrac{\partial}{\partial x}+{\rm d}y\dfrac{\partial}{\partial y})^kf$.

对 $n$ 元函数：${\rm d}^kf=({\rm d}x_1\dfrac{\partial}{\partial x_1}+{\rm d}x_2\dfrac{\partial}{\partial x_2}+\cdots+{\rm d}x_n\dfrac{\partial}{\partial x_n})^kf$.

9.5 向量值函数的导数与微分

向量值函数：许多数量值函数的组合.

导数 $\vec{f}'(\vec{x_0})$ 为 Jacobi 矩阵，同一行为同一分函数，同一列为同一自变量.

若存在矩阵 $A \ \text{s.t.}\ \Delta\vec f=\vec f(\vec{x_0}+\Delta \vec{x})-f(\vec{x_0})=A\Delta \vec{x}+o(\Delta\vec{ x})$ 则称 $f$ 在 $\vec{x_0}{}$ 可微，${\rm d}\vec f=A {\rm d}\vec{x}{}$.

若可微则 $A=\vec{f}'(\vec{x_0})$

可微等价于每个分函数都可微

9.6 复合函数微分

链式法则：外层导一下 $\times$ 内层导一下，中间的乘号是矩阵相乘. $z=f(u,v),\vec g=\left{\begin{matrix}u=u(x,y)\v=v(x,y)\end{matrix}\right.$，则 $\dfrac{\partial z}{\partial x}=\dfrac{\partial f}{\partial u} \dfrac{\partial u}{\partial x}+\dfrac{\partial f}{\partial v} \dfrac{\partial v}{\partial x}{}$，$\dfrac{\partial z}{\partial y}=\dfrac{\partial f}{\partial u} \dfrac{\partial u}{\partial y}+\dfrac{\partial f}{\partial v}\dfrac{\partial v}{\partial y}{}$

链式法则成立条件：外层函数可微

一阶全微分有形式不变性：函数自变量不管是否是中间变量，其微分的公式是一样的.

高阶微分不具有形式不变性，除非中间变量是线性变量

9.7 中值定理

$f(x_0+\Delta x,y_0+\Delta y)-f(x_0,y_0)=f_x(x_0+\theta\Delta x,y_0+\theta\Delta y)\Delta x+f_y(x_0+\theta\Delta x,y_0+\theta\Delta y)\Delta y$，$0<\theta<1$，四个 $\theta$ 是一样的. 由这个式子可知，两个点的连线必须在集合内. 这里引出凸区域和星形域.

推论：函数在区域上偏导恒为零，则函数为常函数

9.8 Taylor 公式

$$ \begin{aligned} f(x_0+\Delta x,y_0+\Delta y)=f&(x_0,y_0)\ +&(\Delta{x}\dfrac { {\rm d} } { {\rm d}x}+\Delta{y}\dfrac { {\rm d} } { {\rm d}y})f(x_0,y_0)\ +&\dfrac{1}{2!}(\Delta{x}\dfrac{ {\rm d} } { {\rm d}x}+\Delta{y}\dfrac{ {\rm d} } { {\rm d}y})^2f(x_0,y_0)\ +&\cdots\ +&\dfrac{1}{k!}(\Delta{x}\dfrac{ {\rm d} } { {\rm d}x}+\Delta{y}\dfrac{ {\rm d} } { {\rm d}y})^kf(x_0,y_0)\ +&\dfrac{1}{(k+1)!}(\Delta{x}\dfrac{ {\rm d} } { {\rm d}x}+\Delta{y}\dfrac{ {\rm d} } { {\rm d}y})^{k+1}f(x_0+\theta\Delta x,y_0+\theta\Delta y) \end{aligned} $$

经常展开到两次： $$ \begin{aligned} f(x_0+\Delta x,y_0+\Delta y)=f&(x_0,y_0)\ +&f_x(x_0,y_0)\Delta x+f_y(x_0,y_0)\Delta y\ +&f_{xx}(x,y)(\Delta x)^2+2f_{xy}(x,y)(\Delta x\Delta y)+f_{yy}(x,y)(\Delta y)^2 \end{aligned} $$

其中 $(x,y)=(x_0+\theta\Delta x,y_0+\theta\Delta y)$

注意，用 Taylor 算高阶导数，除了要乘以 $k!$，还要除以 $C_k^m$（二项式系数）!!!

9.9 隐函数存在定理

若
1. 原方程（组）有零点
2. 各方程偏导连续
3. 对因变量求导不为零（Jacobi 行列式不为零）
则
- 存在隐函数
- 隐函数连续
- 隐函数可导，$\dfrac{\partial 因}{\partial 自}=-\dfrac{把分母中的因换成自}{第三条件的式子}{}$

例如 $F(x_1,\cdots,x_n,y)=0$，若 $\dfrac{\partial F}{\partial y}\neq0$，则 $\dfrac{\partial y}{\partial x_i}=-\dfrac{\dfrac{\partial F}{\partial x_i} }{\dfrac{\partial F}{\partial y} }{}$

例如 $F_j(x_1,\cdots,x_n,y_1,\cdots,y_m)=0$，若 $\dfrac{\partial(F_1,\cdots,F_j,\cdots,F_m)}{\partial(y_1,\cdots,y_j,\cdots,y_m)}\neq0$，则 $\dfrac{\partial y_j}{\partial x_i}=-\dfrac{\dfrac{\partial(F_1,\cdots,F_j,\cdots,F_m)}{\partial(y_1,\cdots,x_i,\cdots,y_m)} }{\dfrac{\partial(F_1,\cdots,F_j,\cdots,F_m)}{\partial(y_1,\cdots,y_j,\cdots,y_m)} }{}$

9.10 逆映射存在定理

$\vec f=\left{\begin{matrix}u=u(x,y)\v=v(x,y)\end{matrix}\right.$，把 $\vec f$ 作为隐函数塞进方程组 $\left{\begin{matrix}F(x,y,u,v)=u-u(x,y)=0\G(x,y,u,v)=v-v(x,y)=0\end{matrix}\right.$，当 $\vec f$ 行列式不为零时 $\dfrac{\partial(F,G)}{\partial(x,y)}\neq0$，唯一确定 $\vec g=\left{\begin{matrix}x=x(u,v)\y=y(u,v)\end{matrix}\right.$，就是 $\vec f$ 的逆映射，$\vec g$ 有连续导数，导数矩阵是 $\vec f$ 导数矩阵的逆矩阵

9.11 曲线的切线与法平面

曲线 $\left{\begin{matrix}x=x(t)\y=y(t)\z=z(t)\end{matrix}\right.$，$x_0=x(t_0)$，类推. 曲线在 $P_0(x_0,y_0,z_0)$ 处的切向量：$\vec\tau=(x'(t_0),y'(t_0),z'(t_0))$

曲线 $\left{\begin{matrix}F(x,y,z)=0\G(x,y,z)=0\end{matrix}\right.$. 曲线在 $P_0(x_0,y_0,z_0)$ 处的切向量：$\vec\tau=\left(\dfrac{\partial(F,G)}{\partial(y,z)},\dfrac{\partial(F,G)}{\partial(z,x)},\dfrac{\partial(F,G)}{\partial(x,y)}\right)$

在 $P_0(x_0,y_0,z_0)$ 处的切向量 $\vec\tau=(a,b,c)$，则

切线 $\dfrac{x-x_0}{a}=\dfrac{y-y_0}{b}=\dfrac{z-z_0}{c}{}$，若分母是 $0$ 则分子恒为 $0$ 且这一项剥出连等式.
法平面 $(x-x_0)a+(y-y_0)b+(z-z_0)c=0$

9.12 曲面的法线与切平面

曲面 $F(x,y,z)=0$. 曲面在 $P_0(x_0,y_0,z_0)$ 处的法向量： $\vec n=(F_x,F_y,F_z)\big|_{(x_0,y_0,z_0)}{}$

曲面 $z=f(x,y)$，改写为 $f(x,y)-z=0$. 曲面在 $P_0(x_0,y_0,z_0)$ 处的法向量： $\vec n=(f_x,f_y,-1)\big|_{(x_0,y_0)}{}$

曲面 $\left{\begin{matrix}x=x(u,v)\y=y(u,v)\z=z(u,v)\end{matrix}\right.$. 曲面在 $P_0(x_0,y_0,z_0)$ 处的法向量： $\vec n=\left(\dfrac{\partial(y,z)}{\partial(u,v)},\dfrac{\partial(z,x)}{\partial(u,v)},\dfrac{\partial(x,y)}{\partial(u,v)}\right)\big|_{(u_0,v_0)}{}$

在 $P_0(x_0,y_0,z_0)$ 处的法向量 $\vec n=(a,b,c)$，则

法线 $\dfrac{x-x_0}{a}=\dfrac{y-y_0}{b}=\dfrac{z-z_0}{c}{}$，若分母是 $0$ 则分子恒为 $0$ 且这一项剥出连等式.
切平面 $(x-x_0)a+(y-y_0)b+(z-z_0)c=0$

9.13 无条件极值

极值点必要条件：若可偏导则偏导必为零，对每个自变量偏导都是零

极值判定定理：对某一点，泰展到二次，考虑二次项系数构成的二次型矩阵的定性，正定则为该点极小值点，负定则该点为极大值点，不定则不是极值点.

注：正定：任意阶主子式行列式为正；负定：奇数阶主子式行列式为负，偶数阶主子式行列式为正.

二元情形具体化为：令 $A=f_{xx}(x_0,y_0)$，$B=f_{xy}(x_0,y_0)$，$C=f_{yy}(x_0,y_0)$

$AC-B^2>0$，$A>0$，则正定，为极小值点
$AC-B^2>0$，$A<0$，则负定，为极大值点
$AC-B^2<0$，不是极值点
$AC-B^2=0$，情况不定

9.14 条件极值

条件极值点必要条件：Lagrange 乘数法，即将条件塞进同一个函数（Lagrange 函数 $L(x_1,\cdots,x_n,\lambda_1,\cdots,\lambda_m)$）求这个函数的无条件极值

条件极值判定定理：对某一点，把 Lagrange 函数泰展到二次，考虑只含 $x$ 的二次项系数构成的二次型矩阵的定性（因为作为限制条件，$\lambda$ 取值是固定的，在泰展中取值只能是本身，不存在变数），正定则为该点极小值点，负定则该点为极大值点，不定则情况不定（限制条件内可能恒正或恒负）.

Chapter 10 重积分

10.1 重积分的概念与性质

平面点集的面积，二重积分的概念，多重积分的概念

性质：

闭连必可积（闭连：有界闭集上的连续函数）
可积必有界
可积之线性组合也可积，积分值也线性组合
可积相乘也可积，但积分值无关
可积则绝对可积，$|\int f {\rm d}V|\leqslant\int|f|{\rm d}V$
区域可加性
保序性（$f\leqslant g\Rightarrow \int f {\rm d}V\leqslant\int g {\rm d}V$）
介值性（$\inf f\cdot V\leqslant\int f {\rm d}V\leqslant \sup f\cdot V$）
典中典：$f$ 闭连，非负，积分值为 $0$，则 $f\equiv0$（证明：假设不恒为零，则存在保号区域，其上积分大于零，又非负故整个积分区域上积分值必大于零，矛盾）

10.2 累次积分

把重积分拆成多个定积分计算. 前提：函数可重积分、对某一个变量可定积分.

交换次序：先化成重积分，找出积分区域的表达式，再拆成累次

10.3 重积分换元法则

${\displaystyle\iint}_{T(D)}f(x,y){\rm d}x {\rm d}y={\displaystyle\iint}_Df(x(u,v),y(u,v))\left|\dfrac{\partial(x,y)}{\partial(u,v)}\right|{\rm d}u {\rm d}v$，其中 $T:\left{\begin{matrix}x=x(u,v)\y=y(u,v)\end{matrix}\right.$.

$\left|\dfrac{\partial(x,y)}{\partial(u,v)}\right|$ 即为 $T$ 的 Jacobi 行列式. Jacobi 行列式是变换前后面积微元变化的倍数，即 ${\rm d}u {\rm d}v$ 作变换 $T$ 之后 ${\rm d}x {\rm d}y=\left|\dfrac{\partial(x,y)}{\partial(u,v)}\right|{\rm d}u {\rm d}v$

有时候已知的是 $T^{-1}{}$ 的 Jacobi 行列式，这时候不用反解，$\dfrac{\partial(x,y)}{\partial(u,v)}\cdot\dfrac{\partial(u,v)}{\partial(x,y)}=1$，即 $T$ 的 Jacobi 行列式就是 $T^{-1}{}$ Jacobi 行列式的倒数.

（二重）极坐标变换
$\left{\begin{matrix}x=r\cos\theta\y=r\sin\theta\end{matrix}\right.$，Jacobi $=r$

（二重）广义极坐标变换
$\left{\begin{matrix}x=ar\cos\theta\y=br\sin\theta\end{matrix}\right.$，Jacobi $=abr$

（三重）柱坐标变换
$\left{\begin{aligned}x&=r\cos\theta\y&=r\sin\theta\z&=z\end{aligned}\right.$，Jacobi $=r$

（三重）球坐标变换
$\left{\begin{aligned}x&=r\sin\varphi\cos\theta\y&=r\sin\varphi\sin\theta\z&=r\cos\varphi\end{aligned}\right.$，Jacobi $=r^2\sin\varphi$.
其中 $\varphi$ 是向径与 $+z$ 的夹角，$0\leqslant\varphi\leqslant\pi$，$0\leqslant\theta<2\pi$. $(\frac12\pi-\varphi)$ 才是仰角

（$n$ 重）球坐标变换
$\left{\begin{aligned}x_1&=r\cos\varphi_1\x_2&=r\ {\color{orange}\sin\varphi_1}\cos\varphi_2\x_3&=r\ {\color{orange}\sin\varphi_1}\ {\color{orange}\sin\varphi_2}\cos\varphi_3\x_4&=r\ {\color{orange}\sin\varphi_1}\ {\color{orange}\sin\varphi_2}\ {\color{orange}\sin\varphi_3}\cos\varphi_4\\vdots\x_{n-1}&=r\ {\color{orange}\sin\varphi_1}\ {\color{orange}\sin\varphi_2}\ {\color{orange}\sin\varphi_3}\cdots\ {\color{orange}\sin\varphi_{n-2} }\cos\varphi_{n-1}\x_n&=r\ {\color{orange}\sin\varphi_1}\ {\color{orange}\sin\varphi_2}\ {\color{orange}\sin\varphi_3}\cdots\ {\color{orange}\sin\varphi_{n-2} }\ {\color{orange}\sin\varphi_{n-1} }\end{aligned}\right.$
Jacobi $=r^{n-1}\sin^{n-2}\varphi_1\sin^{n-3}\varphi_2\cdots\sin\varphi_{n-2}{}$.
把三元球坐标变换的 $z$ 提前，就和这个形式一样了. 各个角度的理解：要把 $n$ 维空间想象成一个平面+ $(n-2)$ 个竖直轴. $\varphi_{n-1}{}$ 是平面指向角，相当于以前的 $\theta\in[0,2\pi)$，这个角是不出现在 Jacobi 里头的. 其他就是相对于各个竖直轴正向的夹角 $\in [0,\pi]$

Chapter 11 曲线积分与曲面积分

11.1 & 11.3 曲线积分

对于曲线 $\left{\begin{matrix}x=x(t)\y=y(t)\z=z(t)\end{matrix}\right.$，记字母头上一点为对 $t$ 求导，则由弧长公式 $\overset{\frown}{s}={\displaystyle\int}_a^b\sqrt{(\dot x)^2+(\dot y)^2+(\dot z)^2}\rm{d}t$ 得到：

第一类曲线积分
- ${\rm d}s=\sqrt{(\dot x)^2+(\dot y)^2+(\dot z)^2}\rm{d}t$
第二类曲线积分
- ${\rm d}\vec s=(\dot x,\dot y,\dot z){\rm d}t$

11.2 & 11.4 曲面积分

对于曲面 $\left{\begin{matrix}x=x(u,v)\y=y(u,v)\z=z(u,v)\end{matrix}\right.$：

第一类曲面积分
- ${\rm d}S=|\vec{r_u}\times\vec{r_v}|{\rm d}u{\rm d}v$
- ${\rm d}S=\sqrt{EG-F^2}{\rm d}u {\rm d}v$，其中 $E=\vec{r_u}\cdot\vec{r_u}{}$，$G=\vec{r_v}\cdot\vec{r_v}{}$，$F=\vec{r_u}\cdot\vec{r_v}{}$
- ${\rm d}S=\sqrt{J_1^2+J_2^2+J_3^2}{\rm d}u {\rm d}v$，其中 $(J_1,J_2,J_3)=\left(\dfrac{\partial(y,z)}{\partial(u,v)},\dfrac{\partial(z,x)}{\partial(u,v)},\dfrac{\partial(x,y)}{\partial(u,v)}\right)$，与 $\vec n$ 的方向一致.
第二类曲面积分
- ${\rm d}\vec{S}=({\rm d}y{\rm d}z,{\rm d}z {\rm d}x,{\rm d}x{\rm d}y)$
- ${\rm d}\vec{S}=\dfrac{\vec n}{|\vec n|}{\rm d}S=(\cos\alpha,\cos\beta,\cos\gamma){\rm d}S$，代入上面合适的 ${\rm d}S$ 计算公式即可. 特别地，选择第三个公式时 ${\rm d}\vec S=\left(\dfrac{\partial(y,z)}{\partial(u,v)},\dfrac{\partial(z,x)}{\partial(u,v)},\dfrac{\partial(x,y)}{\partial(u,v)}\right){\rm d}u{\rm d}v$
- 计算时，先用第一条把 ${\rm d}\vec S$ 分出来，写成一个向量点乘形式（$(P,Q,R)\cdot{\rm d}\vec S$），再用第二条把 ${\rm d}\vec S$ 变成向量数乘以 ${\rm d}S$，化成第一类曲面积分.

对于曲面 $z=z(x,y)$，$\vec r=(x,y,z(z,y))$，取自变量为 $x$ 和 $y$：

$\vec{r_x}=(1,0,z_x)$，$\vec{r_y}=(0,1,z_y)$，$\sqrt{EG-F^2}=\sqrt{1+z_x^2+z_y^2}{}$，$(J_1,J_2,J_3)=(-z_x,-z_y,1)$.

11.5 第二类积分与重积分的关系

诱导定向：“左边”

Green 公式：${\displaystyle\int}_{\partial D} P {\rm d}x+Q {\rm d}y={\displaystyle\iint}_D(Q_x-P_y){\rm d}{x}{\rm d}{y}{}$.

要求 $D$ 为单连通区域，若有有限个洞可以割开算

Green 定理：下列四个命题等价

对 $D$ 内任一闭曲线 $L$，${\displaystyle\oint}_LP{\rm d}x+Q {\rm d}y=0$
${\displaystyle\int}_LP{\rm d}x+Q {\rm d}y$ 与路径无关，只与起点终点有关
存在 $D$ 上可微函数 $U(x,y)\ \text{s.t.}\ {\rm d}U=P {\rm d}x+Q {\rm d}y$，即 1-形式 $P {\rm d}x+Q {\rm d}y$ 存在原函数
$D$ 上 $Q_x\equiv P_y$

循环常数：一条曲线包围了一个瑕点，包围区域内所有点除了瑕点都满足 $Q_x\equiv P_y$. 这时候找一个逆时针闭合曲线围住瑕点，计算它上面的积分，其值称为循环常数. 则曲线上的积分值 $=$ 环绕瑕点的圈数（带正负，逆时针为正，顺时针为负）$\times$ 循环常数

Gauss 公式：${\displaystyle\iint}{\partial\Omega}P{\rm d}y{\rm d}z+Q{\rm d}z{\rm d}x+R{\rm d}x{\rm d}y={\displaystyle\iiint}\Omega(P_x+Q_y+R_z){\rm d}x{\rm d}y{\rm d}z$

要求 $\Omega$ 为单连通区域，若有有限个洞可以割开算.

Stokes 公式：${\displaystyle\int}{\partial\Sigma}P{\rm d}x+Q{\rm d}y+R{\rm d}z={\displaystyle\iint}{\Sigma}(R_y-Q_z){\rm d}y{\rm d}z+(P_z-R_x){\rm d}z{\rm d}x+(Q_x-P_y){\rm d}x{\rm d}y$

行列式形式：${\displaystyle\int}{\partial\Sigma}P{\rm d}x+Q{\rm d}y+R{\rm d}z={\displaystyle\iint}{\Sigma}\begin{vmatrix}{\rm d}y{\rm d}z & {\rm d}z{\rm d}x & {\rm d}x{\rm d}y\\frac{\partial}{\partial x}&\frac{\partial}{\partial y}&\frac{\partial}{\partial z}\P&Q&R\end{vmatrix}={\displaystyle\iint}_{\Sigma}\begin{vmatrix}\cos\alpha&\cos\beta&\cos\gamma\\frac{\partial}{\partial x}&\frac{\partial}{\partial y}&\frac{\partial}{\partial z}\P&Q&R\end{vmatrix}{\rm d}S$

11.6 场论初步

这段并不在考点中，是后来学了大物之后才补的。懒得打成文档了，直接放图

Chapter 12 数项级数

12.1 级数收敛

级数收敛定义；几何级数 $\sum\limits x^n$，$|x|\geqslant1$ 时发散，$|x|<1$ 时收敛，$\sum\limits_{n=1}^\infty x^n=\dfrac{x}{1-x}{}$；p-级数 $\sum\limits \dfrac{1}{n^p}{}$，$p>1$ 时收敛，$p\leqslant1$ 时发散

级数收敛 $\Rightarrow$ 通项趋于零，用于证明级数发散

收敛级数线性组合也收敛，收敛值也是线性组合

结合律，收敛 $\Rightarrow$ 加括号收敛且和不变，加括号发散 $\Rightarrow$ 发散

积化和差：$\forall x$，$\sum\limits\sin nx$ 有界. $\sum\limits\cos nx$，$x\neq 2k\pi$ 时有界，$x=2k\pi$ 时发散.

12.2 正项级数敛散性判断

部分和判别法：正项级数部分和有界则收敛，无界则发散

比较判别法：正项级数，通项 $a_n\leqslant Ab_n$，则 $\sum\limits b_n$ 敛则 $\sum\limits a_n$ 敛，$\sum\limits a_n$ 散则 $\sum\limits b_n$ 散.

比较判别法极限形式：$\sum\limits a_n$ 与 $\sum\limits b_n$ 为正项级数. 记 $\lim\limits_{n\to\infty}\dfrac{a_n}{b_n}=l$（未知比已知之极限为 $l$），则

$0<l<+\infty$ 时，分子分母同敛散
$l=0$ 时，分母敛则分子敛
$l=+\infty$ 时，分母散则分子散

比较判别法迫敛形式：$\sum\limits a_n$、$\sum\limits b_n$ 收敛，若 $a_n\leqslant u_n\leqslant b_n$，则 $\sum\limits u_n$ 收敛.

Cauchy 判别法：正项级数，$\limsup\limits_{n\to\infty}\sqrt[n]{x_n}=r$，则

$r<1$ 时级数收敛
$r>1$ 时级数发散
$r=1$ 时不定

d'Alembert 判别法：正项级数，$\lim\limits_{n\to\infty}\dfrac{a_{n+1} }{a_n}=r$，则

$r<1$ 时级数收敛
$r>1$ 时级数发散
$r=1$ 时不定

Raabe 判别法：正项级数，$\lim\limits_{n\to\infty}n(\dfrac{a_n}{a_{n+1} }-1)=r$，则

$r>1$ 时级数收敛
$r<1$ 时级数发散
$r=1$ 时不定

积分判别法：$f(x)$ 在 $[a,+\infty)$ 非负单减，任意区间 $[a,A]$ 可积，则 $\sum\limits_{n=N}^\infty f(n)$ 与 ${\displaystyle\int}_a^{+\infty}f(x){\rm d}x$ 同敛散

12.3 任意项级数敛散性判断

Cauchy 收敛原理：部分和收敛的 Cauchy 收敛原理

Leibniz 判别法：一正一负，绝对值单减趋零

Abel 变换：$\sum\limits_{n=1}^p a_nb_n=B_pa_p-\sum\limits_{n=1}^{p-1}B_n(a_{n+1}-a_n)$，几何直观：

Abel 引理：${a_n}{}$ 单调，${B_n}{}$ 有界（$|B_n|\leqslant M$），则 $|\sum\limits_1^pa_kb_k|\leqslant M(|a_1|+2|a_p|)$

A-D 判别法

Abel 判别法：单调有界 $\times$ 部分和收敛
Dirichlet 判别法：单调趋零 $\times$ 部分和有界

12.4 绝对收敛与条件收敛

绝对收敛 $\Rightarrow$ 收敛

绝对发散 $\xcancel\Rightarrow$ 发散，但 Cauchy 判出来绝对发散或 d'Alembert 判出来绝对发散的，原级数必发散

正负部拆分：$x_n^+=\left{\begin{matrix}x_n,\ x_n>0\0, \ x_n\leqslant0\end{matrix}\right.$，$x_n^-=\left{\begin{matrix}-x_n,\ x_n<0\0, \ x_n\geqslant0\end{matrix}\right.$. 有两个等式：$|x_n|=x_n^++x_n^-$，$x_n=x_n^+-x_n^-$

重排级数：

对绝对收敛的级数，任一重排级数都绝对收敛，收敛值不变
对条件收敛的级数，存在重排级数收敛于任意一个给定实数，或者发散到无穷（Riemann 定理）

级数相乘

两个收敛级数 $\sum\limits a_n=A$ 和 $\sum\limits b_n=B$ 按正方形排列的乘积，收敛于 $AB$
两个绝对收敛级数 $\sum\limits a_n=A$ 和 $\sum\limits b_n=B$ 相乘，不论怎么排序都收敛且收敛于 $AB$
Cauchy 乘积 $c_n=\sum\limits_{i+j=n+1}a_ib_j$，若 $\sum\limits a_n$、$\sum\limits b_n$ 、$\sum\limits c_n$ 都收敛，那么 $\sum\limits c_n=AB$（这个的证明在 13.5）

12.5 无穷乘积

代换，$p_n=1+a_n$

$\prod\limits p_n$ 与 $\sum\limits\ln p_n$ 同敛散

$a_n$ 不变号时 $\prod\limits(1+a_n)$ 与 $\sum\limits a_n$ 同敛散. 等价形式：$p_n$ 不跨过 1 的分界线时 $\prod\limits p_n$ 与 $\sum\limits(p_n-1)$ 同敛散.

$\sum\limits a_n$ 收敛，则 $\sum\limits a_n^2$ 与 $\prod\limits(1+a_n)$ 同敛散

$\prod\limits p_n$ 绝对收敛，即 $\sum\limits\ln p_n$ 绝对收敛. 绝对收敛的无穷乘积可以换序.

$\prod\limits(1+a_n)$ 绝对收敛、$\prod\limits(1+|a_n|)$ 收敛、$\sum\limits|a_n|$ 收敛，三者等价

Wallis 公式：$\dfrac {2}{\pi}=\dfrac{1\cdot1\cdot3\cdot3\cdot5\cdot5\cdots}{2\cdot2\cdot4\cdot4\cdot6\cdot6\cdots}{}$

Viète 公式：$\dfrac{2}{\pi}=\cos\dfrac{\pi}{4}\cdot\cos\dfrac{\pi}{8}\cdot\cos\dfrac{\pi}{16}\cdot\cdots$

Stirling 公式：$n!\sim\sqrt{2\pi n}\cdot(\dfrac ne)^n\ ,n\to+\infty$. 这使得 $n!$ 有了一个含 $n$ 次方的等价逼近. 极限形式：$\lim\limits_{n\to\infty}\dfrac{n!e^n}{n^{n+\frac12} }=\sqrt{2\pi}{}$

Chapter 13 函数项级数

13.1 点态收敛

点态收敛，收敛域，部分和函数，和函数，对偶性

13.2 一致收敛

一致收敛，内闭一致收敛

一致收敛 $\Leftrightarrow$ 部分和函数与和函数的距离趋于零，距离即 $\sup\limits_{x\in D}|f(x)-g(x)|$

13.3 一致收敛判别法

想判断不一致收敛：证明 sup>0 且可被达到，这样 sup 不趋于零，不一致收敛

Cauchy 收敛原理：部分和函数收敛的 Cauchy 收敛原理

Weierstrass 判别法/ M 判别法：若 $\forall x\in D$，成立 $|u_n(x)|\leqslant a_n$ 且 $\sum\limits a_n$ 收敛，则 $\sum\limits u_n(x)$ 在 $D$ 上一致收敛，而且绝对一致收敛

A-D 判别法

Abel 判别法：单调一致有界 $\times$ 部分和函数一致收敛
Dirichlet 判别法：单调一致趋零 $\times$ 部分和函数一致有界
注：其中“单调”指的是对任意固定的 $x_0$，数列 ${a_n(x_0)}{}$ 随 $n$ 单调；“一致有界”指的是对一切 $n$，函数值域有一个一致的界；“一致趋零”指的是随着 $n\to 0$，函数通项趋于 $f(x)\equiv 0$.
注：$\sum\limits\cos kx$、$\sum\limits\sin kx$ 在 $(0,2\pi)$ 内闭一致有界.

13.4 一致收敛的性质

一致收敛的函数项级数，可逐项求极限、可逐项积分.

逐项求导定理：若① $u_n(x)$ 导数连续、② $\sum\limits u_n(x)$ 点态收敛、③ $\sum\limits u_n'(x)$ 一致收敛，则可逐项求导. 条件③实际上可以推得 $\sum\limits u_n(x)$ 一致收敛

可逐项推不出一致收敛.

Dini 定理：若①闭区间上 $u_n(x)$ 连续、② $\sum\limits u_n(x)$ 点态收敛、③部分和函数对任意固定的 $x_0$ 随 $n$ 单调（对任意固定的 $x_0$，$\sum\limits u_n(x_0)$ 是定号级数，要么正项要么负项），则 $\sum\limits u_n(x)$ 一致收敛.

13.5 幂级数及其性质

形式：$\sum\limits a_n(x-x_0)^n$

收敛域：是以 $x_0$ 为中心的区间（Abel 第一定理），端点收敛情况不一定，需要单独判断. 区间长度的一半称为收敛半径，收敛半径 $R=+\infty$ 表示对一切 $x$ 幂级数都收敛，收敛半径 $R=0$ 表示只有 $x_0$ 点处幂级数收敛.

收敛半径计算公式：$R=\dfrac1A$，$A=0$ 时 $R=+\infty$，$A=+\infty$ 时 $R=0$

Cauchy-Hadamard 公式：$A=\limsup\limits_{n\to\infty}\sqrt[n]{|a_n|}{}$
d'Alembert 公式：$A=\lim\limits_{n\to\infty}\left|\dfrac{a_{n+1} }{a_n}\right|$

幂级数在收敛域的内闭区间上一致收敛（Abel 第二定理）. 据此推出：

幂级数的和函数在收敛域上连续，端点开则开连，闭则闭连.
幂级数在收敛域的内闭区间上可逐项积分，积分后收敛半径不变. 注意积完之后求和从哪里开始. 一般可以由连续性将这一性质推广到开区间上.
幂级数在收敛域内可逐项求导，求导后收敛半径不变. 注意导完之后求和从哪里开始. 注意闭端点不是收敛域的内部.

13.6 函数的幂级数展开

说一个函数可以展开成级数，就是说级数一致收敛于这个函数，函数和级数之间可以画等号.

逻辑：（之后三角级数展开也是这个逻辑）

假设某个函数可以被展开成幂级数，发现幂级数被函数唯一确定，$a_n=\dfrac{f^{(n)}(x_0)}{n!}{}$
据此，任意给一个函数，都按上面的规则构造出一个级数，称为这个函数的 Taylor 级数. 这个 Taylor 级数收不收敛、收敛的话收不收敛到 $f(x)$、是不是一致收敛，这都是后话. 所以这里函数和级数之间只能画波浪号而不能画等号.
可以证明，当 $f$ 在 $x_0$ 处任意阶可导时，余项一致趋零，$f$ 的 Taylor 级数一致收敛于 $f$，就是说 $f$ 可以展开成幂级数，这时候 Taylor 级数就可以叫 Taylor 展开式了.

当 $x_0=0$ 时也称为 Maclaurin 级数

Taylor 级数的余项：Peano、Lagrange，补充一个积分形式余项，$r_n(x)=\dfrac{1}{n!}{\displaystyle\int}_{x_0}^xf^{(n+1)}(t)(x-t)^n{\rm d}t$.

对于积分形式余项，运用积分第二中值定理（见 Chapter 14）

把 $f^{(n+1)}(t)$ 移出积分，得 $r_n(x)=\dfrac{1}{n!}f^{(n+1)}(\xi){\displaystyle\int}_{x_0}^x(x-t)^n{\rm d}t=\dfrac{1}{(n+1)!}f^{(n+1)}(\xi)(x-x_0)^{n+1}{}$，即 Lagrange 余项.
把 $f^{(n+1)}(t)(x-t)^n$ 移出积分，得 $r_n(x)=\dfrac{1}{n!}f^{(n+1)}(\xi)(x-\xi)^n(x-x_0)$，令 $\xi=x_0+\theta(x-x_0)$ 得 $r_n(x)=\dfrac{1}{n!}f^{(n+1)}(\xi)(1-\theta)^n(x-x_0)^{n+1}{}$，称为 Cauchy 余项.

初等函数 Taylor 表（在 $x_0=0$ 处展开，注意求和从哪里开始）. $(1+x)^\alpha$ 收敛域，$\alpha>0$ 时两端闭 $\alpha< -1$ 时两端开，$-1<\alpha<0$ 时左开右闭）

| 初等函数 | Taylor 展开式 | 收敛域 | | :--------------: | :-----------------------------------------------------------------------: | :-----------: | | $\dfrac{1}{1+x}{}$ | $\sum\limits_{n=0}^\infty (-1)^nx^n$ | $(-1,1)$ | | $e^x$ | $\sum\limits_{n=0}^\infty \dfrac{x^n}{n!}{}$ | $\mathbb R$ | | $\sin x$ | $\sum\limits_{n=0}^\infty \dfrac{(-1)^{n} }{(2n+1)!}x^{2n+1}{}$ | $\mathbb R$ | | $\cos x$ | $\sum\limits_{n=0}^\infty \dfrac{(-1)^{n} }{(2n)!}x^{2n}{}$ | $\mathbb R$ | | $\arctan x$ | $\sum\limits_{n=0}^\infty \dfrac{(-1)^{n} }{2n+1}x^{2n+1}{}$ | $[-1,1]$ | | $\ln(1+x)$ | $\sum\limits_{n=1}^\infty\dfrac{(-1)^{n+1} }{n}x^n$ | $(-1,1]$ | | $(1+x)^\alpha$ | $\sum\limits_{n=0}^\infty\begin{pmatrix}n\\alpha\end{pmatrix}x^n$ | $(-1,1)$，开闭见上 | | $\arcsin x$ | $\sum\limits_{n=1}^\infty\dfrac{(2n-1)!!}{(2n)!!}\dfrac{x^{2n+1} }{2n+1}{}$ | $[-1,1]$ |

求 Taylor 展开式的思路

思路一，对已知的展开式求导. 例如计算 $\dfrac{1}{x^2}{}$ 在 $x_0=1$ 的泰展，$\dfrac1x=\dfrac{1}{1+(x-1)}=\sum\limits_{n=0}^\infty(-1)^n(x-1)^n$，逐项求导即可
思路二，线性拆分. 例如计算 $\dfrac{1}{3+5x-2x^2}{}$ 在 $x_0=0$ 的泰展，原式 $=\dfrac17(\dfrac{1}{3-x}+\dfrac{2}{1+2x})$，两个都有现成的公式
思路三，运用 Cauchy 乘积
- 对于乘法，合并次数相同的项
- 对于除法，设 $\dfrac{f(x)}{g(x)}=\sum\limits c_n(x-x_0)^n$，得 $\sum\limits a_n(x-x_0)^n=(\sum\limits b_n(x-x_0)^n)(\sum\limits c_n(x-x_0)^n)$，待定系数解 $c_n$
思路四，整体代入. 例如计算 $\ln\dfrac{\sin x}{x}{}$ 在 $x_0=0$ 的泰展，$\dfrac{\sin x}{x}=1-(\dfrac16x^2-\dfrac{1}{120}x^4+\cdots)$，令括号里面为 $u$，则 $\ln\dfrac{\sin x}{x}=\ln(1-u)=-(u-\dfrac12u^2+\dfrac13u^3-\cdots)$

Chapter 14 广义积分

（含参变量积分不考）

14.1 & 14.3 无穷积分/瑕积分

瑕点：无穷远点/函数值为无穷大的点. 把被积区间划分成若干只含一个或不含瑕点的部分，每段单独看.

对于不含瑕点的，直接积分即可
对于无穷远瑕点，若 $\lim\limits_{A\to\infty}{\displaystyle\int}_a^Af(x){\rm d}x$ 存在则收敛. p-积分 ${\displaystyle\int}_1^{+\infty}\dfrac{1}{x^p}{\rm d}x$，$p>1$ 收敛，$p\leqslant1$ 发散.
对于无穷大瑕点，若 $\lim\limits_{\eta\to0^+}{\displaystyle\int}_{a+\eta}^bf(x){\rm d}x$ 存在则收敛. p-瑕积分 ${\displaystyle\int}_a^b\dfrac{1}{(x-a)^p}{\rm d}x$，$0<p<1$ 收敛，$p\geqslant1$ 发散. 这与 p-积分结论相反
如果两个端点都是瑕点，则两个极限过程都收敛整体才收敛，且极限过程都是独立的

14.2 无穷积分敛散性判断

Cauchy 收敛准则（假设瑕点是正无穷）：$\forall\varepsilon>0,\exists N \ \text{s.t.}\ A,A'>N$ 时 $\left|{\displaystyle\int}_{A}^{A'}f(x){\rm d}x\right|<\varepsilon$

比较判别法，要求函数非负. 结论与级数的比较判别法相同. 也有极限形式，是让 $x$ 趋向瑕点（正无穷或负无穷）

Cauchy 判别法，本质是与 p-积分比较，不如直接用比较判别法

级数判别法（级数的积分判别法逆用）

A-D 判别法

积分第二中值定理：单调的提前，代入端点，代哪端积分靠哪侧. $f$、$g$ 在 $[a,b]$ 可积，$f$ 在 $[a,b]$ 单调，则 $\exists\xi\in[a,b] \ \text{s.t.}\ {\displaystyle\int}_a^bf(x)g(x){\rm d}x=f(a){\displaystyle\int}a^\xi g(x){\rm d}x+f(b){\displaystyle\int}\xi^bg(x){\rm d}x$
Abel 判别法：单调有界（这回是关于 $x$ 单调，注意与函数项级数区分）$\times$ 无穷积分收敛
Dirichlet 判别法：单调趋零 $\times$ 无穷积分有界（指任给积分上界，积分值有界）

绝对收敛必收敛，积分绝对值 $\leqslant$ 绝对值积分. 同样有绝对可积和条件可积

14.4 瑕积分敛散性判断

Cauchy 收敛准则（假设瑕点是区间下界）：$\forall\varepsilon>0,\exists\delta \ \text{s.t.}\ 0<\eta<\eta'<\delta$ 时 $\left|{\displaystyle\int}_{a+\eta}^{a+\eta'}f(x){\rm d}x\right|<\varepsilon$

比较判别法，要求函数非负. 结论与级数的比较判别法相同. 也有极限形式，是让 $x$ 趋向瑕点（上界或下界）.

Cauchy 判别法，本质是与 p-瑕积分比较，不如直接用比较判别法

A-D 判别法（假设下界为瑕点）

Abel 判别法：单调有界 $\times$ 瑕积分收敛
Dirichlet 判别法：单调趋零（当自变量趋于下界）$\times$ 瑕积分有界

化为无穷积分判别：设 $a$ 为瑕点，作变量替换 $x=a+\dfrac1t$，则 ${\displaystyle\int}a^bf(x){\rm d}x={\displaystyle\int}{\frac{1}{b-a} }^{+\infty}f(a+\dfrac1t)\dfrac{1}{t^2}{\rm d}t$

14.5 Cauchy 主值

Cauchy Principal Value

即对于某个瑕点，有两个极限过程（或是负无穷到正无穷积分），让这两个极限过程的趋向速度相同，若这样的极限存在，则称在 Cauchy 主值意义下收敛，Cauchy 主值即为极限值，记为 $({\rm cpv}){\displaystyle\int}_a^bf(x){\rm d}x$

cpv 意义下的瑕积分称为奇异积分

普通意义下收敛，则 cpv 意义下收敛，反过来不定

14.6 Euler 积分

（应该也不考）

$\Gamma$ 函数，aka 第二类 Euler 积分：$\Gamma(\alpha)={\displaystyle\int}_0^{+\infty}x^{\alpha-1}e^{-x}{\rm d}x$

定义域（右边积分的收敛域）：$(0,+\infty)$
$\Gamma(\alpha)$ 连续
$\Gamma(\alpha)$ 任意阶可导，$\Gamma^{(n)}(\alpha)={\displaystyle\int}_0^{+\infty}x^{\alpha-1}e^{-x}(\ln x)^n{\rm d}x$
$\Gamma(\alpha+1)=\alpha\Gamma(\alpha)$，$\alpha>0$，取正整数得 $\Gamma(n+1)=n!$
$\Gamma(\alpha)$ 在 $(1,2)$ 取得唯一最小值，$0^+$ 和 $+\infty$ 处函数趋于正无穷
Legendre 公式：$\Gamma(s)\Gamma(s+\dfrac12)=\dfrac{\sqrt{\pi} }{2^{2s-1} }\Gamma(2s)$，$s>0$
余元公式：$\Gamma(s)\Gamma(1-s)=\dfrac{\pi}{\sin s\pi}{}$，$0<s<1$
- 引理：$\dfrac{\pi}{\sin s\pi}=\dfrac1x+\sum\limits_{n=1}^\infty(-1)^n(\dfrac{1}{x+n}+\dfrac{1}{x-n})$

${\rm B}{}$ 函数，aka 第一类 Euler 积分：${\rm B}(p,q)={\displaystyle\int}_0^1x^{p-1}(1-x)^{q-1}{\rm d}x$

定义在第一象限，连续，任意阶可导且导数连续
递归式
- ${\rm B}(p,q)=\dfrac{(q-1)}{p+(q-1)}{\rm B}(p,q-1)$，$p>0$，$q>1$
- ${\rm B}(p,q)=\dfrac{(p-1)}{(p-1)+q}{\rm B}(p-1,q)$，$p>1$，$q>0$

关系：

${\rm B}(p,q)=\dfrac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)}{}$，$p,q>0$，代入正整数得 ${\rm B}(m,n)=\dfrac{(m-1)!(n-1)!}{(m+n-1)!}{}$

Chapter 15 Fourier 级数

（Fourier 积分不考）

15.1 & 15.2 三角级数与 Fourier 级数

三角级数：$\dfrac12a_0+\sum\limits_{n=1}^\infty(a_n\cos nx+b_n\sin nx)$

逻辑：（和幂级数是一个逻辑）

假设某个 $T=2\pi$ 的周期函数可以被展开成三角级数，发现三角级数被函数唯一确定，$a_n=\dfrac{1}{\pi}{\displaystyle\int}{-\pi}^\pi f(x)\cos nx{\rm d}x$，$b_n=\dfrac{1}{\pi}{\displaystyle\int}{-\pi}^\pi f(x)\sin nx{\rm d}x$
据此，任意给一个函数，都按上面的规则构造出一个级数，称为这个函数的 Fourier 级数. 这个 Fourier 级数收不收敛、收敛的话收不收敛到 $f(x)$、是不是一致收敛，这都是后话. 所以这里函数和级数之间只能画波浪号而不能画等号.
可以证明，当 $f(x)$ 满足下面两个条件之一时，$f(x)$ 的 Fourier 级数点态收敛于 $\sigma(x)=\dfrac{f(x^+)+f(x^-)}{2}{}$：
- Dirichlet-Jordan 判别法：$x$ 的邻域内分段单调且有界
- Dini-Lipschitz 判别法：$x$ 处满足 α-Holder 条件（$\forall\varepsilon>0$，$\exists L>0$、$\exists\alpha\in(0,1] \ \text{s.t.}\ 0<u<\delta$ 时，$|f(x\pm u)-f(x^\pm)|<Lu^\alpha$，$\alpha=1$ 时称为 Lipschitz 条件）. α-Holder 条件中 α 越大条件越强. 可导一定收敛于 $\sigma(x)=f(x)$

对于 $T=2l$ 的，设辅助函数 $g(x)=f\left(\dfrac l\pi t\right)$，把 $g$ 傅展后代入 $t=\dfrac{\pi x}{l}{}$ 即可

偶延拓，奇延拓，周期延拓

偶函数的傅展只含 cos，奇函数的傅展只含 sin.

15.3 Fourier 级数的性质

（针对 $T=2\pi$）

Fourier 系数趋于零
可逐项积分
逐项微分：周期内连续、周期头尾相接、导数处处存在或只有有限个点不存在、导数可积或绝对可积，四个条件推出导函数的 Fourier 级数为（函数的 Fourier 级数）的导数，并不知道收敛性
是所有三角级数中的最佳均方逼近
Parseval 等式：$\dfrac12a_0^2+\sum\limits(a_n^2+b_n^2)=\dfrac{1}{\pi}\displaystyle\int_{-\pi}^{\pi}f^2(x){\rm d}x$
(Bessel 不等式：上面等号改成 $\leqslant$)

随机过程作业 Chapter5 连续时间Markov链

Mon, 05 May 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

Sheldon M. Ross "Stochastic Processes" 2nd Edition 随机过程（第二版）习题

5.10

(1) Kolmogorov 微分方程的引理1即为题所求. 只需证明该引理的前提条件，即“$t$ 时间内转移一次以上的概率为 $o(t)$”.

记 $T_1$ 为第一次转移的时间，$T_1\sim E(v_0)$，假设转移到状态 $k$；记 $T_2$ 为第二次转移的时间，$T_2'=T_2-T_1\sim E(v_k)$. 两次转移都发生在 $t$ 时间内的概率 $P_{\ge2}(t)=P(T_1+T_2'\leq t)$

$T_1$ 与 $T_2'$ 独立，于是卷积之得 $$ \begin{aligned} P_{\geq2}(t)&= \displaystyle\int_0^t f_{T_1}(x)\cdot P(T_2'\le t-x),{\rm d}x\ &= \displaystyle\int_0^t v_0{\rm e}^{-v_0 x} (1-{\rm e}^{-v_k(t-x)}),{\rm d}x\ &= \int_0^t v_0 {\rm e}^{-v_0 x},{\rm d}x-\int_0^t v_0 e^{-v_0 x} {\rm e}^{-v_k(t-x)},{\rm d}x\ &= 1-{\rm e}^{-v_0t}-v_0{\rm e}^{-v_kt} \displaystyle\int_0^t {\rm e}^{-(v_0-v_k)x} {\rm d}x\ &= 1-{\rm e}^{-v_0t}-v_0{\rm e}^{-v_k t} \cdot\dfrac{1-{\rm e}^{-(v_0-v_k)t} }{v_0-v_k} \end{aligned} $$ （其中当 $v_0-v_k=0$ 时后项积分为 $0$，不影响结论）

令 $t\to0$，作一阶无穷小近似得 $$ P_{\geq 2}(t)\sim v_0t-\dfrac{v_0t}{v_0-v_k} + o(t) = o(t), $$

于是 $\lim\limits_{t\to0}\dfrac{1-P(t)}{t}=\lim\limits_{t\to0}\dfrac{1-P_{00}(t)}{t}=v_0$.

(2) 左边： $$ P(s+t)=\sum\limits_{k=0}^\infty P_{0k}(s)P_{k0}(t)\geq P_{00}(s)P_{00}(t)=P(s)P(t) $$

右边： $$ \begin{aligned} P(s+t)&=\sum\limits_{k=0}^\infty P_{0k}(s)P_{k0}(t)\ &= P(s)P(t)+\sum\limits_{k=1}^\infty P_{0k}(s)P_{k0}(t)\ &\leq P(s)P(t)+\sum\limits_{k=1}^\infty P_{0k}(s)\ &= P(s)P(t)+1-P(s) \end{aligned} $$

(3) 将 (2) 中的 $t$ 替换为 $t-s$ $$ P(s)P(t-s)\leq P(s+t-s)\leq 1-P(t-s)+P(s)P(t-s) $$ 同减 $P(s)$ $$ \begin{aligned} P(s)\big[P(t-s)-1\big]\leq P(t)-P(s)&\leq 1-P(t-s)+P(s)P(t-s)-P(s)\ &= \big[1-P(t-s)\big]\big[1-P(s)\big] \end{aligned} $$ 又概率 $P\in[0,1]$， $$ \begin{aligned} P(t-s)-1\leq P(s)\big[P(t-s)-1\big]\leq P(t)-P(s)&\leq\big[1-P(t-s)\big]\big[1-P(s)\big]\leq1-P(t-s) \end{aligned} $$ 左、中、右取绝对值即得 $|P(t)-P(s)|\leq1-P(t-s)$.

进一步地，令 $t=s+\varepsilon$，得 $|P(s+\varepsilon)-P(s)|\leq1-P(\varepsilon)$. $P(t)$ 表示 $t$ 时间内不发生转移的概率，即 $$ P(t)=P(T_1>t)={\rm e}^{-v_0t}>1-v_0t $$ 于是 $\forall\ \varepsilon>0$，存在 $\delta=v_0\varepsilon$ 使得 $$ |P(s+\varepsilon)-P(s)|<v_0\varepsilon=\delta $$ 故 $P$ 连续.

5.11

(1) 在 Yule 生灭过程中，记 $v_i=i\lambda$，则 $q_{ij}=\begin{cases}i \lambda&,j=i+1\0&,j \neq i+1\end{cases}$. 于是 $$ \begin{aligned} P_{ij}'(t)&= \binom{j-1}{i-1}\big(-i\lambda{\rm e}^{-i\lambda t}(1-{\rm e}^{-\lambda t})^{j-i}+(j-i)(1-{\rm e}^{-\lambda t})^{j-i-1}\lambda{\rm e}^{-\lambda t}{\rm e}^{-i\lambda t}\big)\ &= \binom{j-1}{i-1}\lambda {\rm e}^{-i\lambda t}(1-{\rm e}^{\lambda t})^{j-i-1}(j {\rm e}^{-\lambda t}-i) \end{aligned} $$

向后方程组： $$ \begin{aligned} \sum_{k\neq i} q_{ik}P_{kj}(t)-v_iP_{ij}(t)&=q_{i,i+1}P_{i+1,j}(t)-i \lambda P_{ij}(t)\ &= i\lambda \binom{j-1}{i} {\rm e}^{-(i+1) \lambda t}\left(1-{\rm e}^{-\lambda t}\right)^{j-i-1}-i \lambda P_{ij}(t)\ &= \lambda\binom{j-1}{i-1}(j-i){\rm e}^{-i\lambda t}{\rm e}^{-\lambda t}\left(1-{\rm e}^{-\lambda t}\right)^{j-i-1}-i\lambda\binom{j-1}{i-1}{\rm e}^{-i \lambda t}(1-{\rm e}^{-\lambda t})^{j-i}\ &= \binom{j-1}{i-1}\lambda{\rm e}^{-i \lambda t}\left(1-{\rm e}^{-\lambda t}\right)^{j-i-1}(j {\rm e}^{-\lambda t}-i{\rm e}^{-\lambda t}-i+i{\rm e}^{-\lambda t})\ &= \binom{j-1}{i-1}\lambda {\rm e}^{-i\lambda t}(1-{\rm e}^{\lambda t})^{j-i-1}(j {\rm e}^{-\lambda t}-i)\ &= P_{ij}'(t) \end{aligned} $$

向前方程组： $$ \begin{aligned} \sum_{k\neq j} q_{kj}P_{ik}(t)-v_jP_{ij}(t)&=q_{j-1,j}P_{i,j-1}(t)-j \lambda P_{ij}(t)\ &= (j-1)\lambda \binom{j-2}{i-1} {\rm e}^{-i\lambda t}\left(1-{\rm e}^{-\lambda t}\right)^{j-i-1}-j \lambda P_{ij}(t)\ &= \lambda\binom{j-1}{i-1}(j-i){\rm e}^{-i\lambda t}\left(1-{\rm e}^{-\lambda t}\right)^{j-i-1}-j\lambda\binom{j-1}{i-1}{\rm e}^{-i \lambda t}(1-{\rm e}^{-\lambda t})^{j-i}\ &= \binom{j-1}{i-1}\lambda{\rm e}^{-i \lambda t}\left(1-{\rm e}^{-\lambda t}\right)^{j-i-1}(j-i-j+j {\rm e}^{-\lambda t})\ &= \binom{j-1}{i-1}\lambda {\rm e}^{-i\lambda t}(1-{\rm e}^{\lambda t})^{j-i-1}(j {\rm e}^{-\lambda t}-i)\ &= P_{ij}'(t) \end{aligned} $$

(2) 取条件于 Yule 过程停止时的人口数 $X(T)=n$. 考虑 $\tau$ 时间内流失 $n$ 人，相当于求第 $n$ 个人离开所需时间为 $t$ 的概率，故密度函数 $$ \begin{aligned} f(t)&= \sum\limits_{n=1}^\infty P(S_n=t)\cdot P(X(T)=n)\ &= \sum\limits_{n=1}^\infty\dfrac{\mu {\rm e}^{-\mu t}(\mu t)^{n-1} }{(n-1)!}\cdot P(X(T)=n)\ \end{aligned} $$

令 $P_n(t)=P(X(t)=n)$，由出生率定义可得 $$ \begin{cases} P_1'(t)=-\lambda P(t)\ P_n'(t)=(n-1)\lambda P_{n-1}(t)-n \lambda P_n(t) \end{cases} $$ 归纳之证得 $P_n(t)={\rm e}^{-\lambda t}(1-{\rm e}^{-\lambda t})^{n-1}$. 于是 $$ \begin{aligned} f(t)&= \sum\limits_{n=1}^\infty\dfrac{\mu {\rm e}^{-\mu t}(\mu t)^{n-1} }{(n-1)!}\cdot {\rm e}^{-\lambda T}(1-{\rm e}^{-\lambda T})^{n-1}\ &= \mu {\rm e}^{-\mu t}{\rm e}^{-\lambda T}\sum\limits_{n=0}^\infty\dfrac{\big(\mu t(1-{\rm e}^{-\lambda T})\big)^n}{n!}\ &= \mu{\rm e}^{-\lambda T} \cdot{\rm exp}\big(-\mu t+\mu t(1-{\rm e}^{-\lambda T})\big)\ &= \mu{\rm e}^{-\lambda T} \cdot{\rm exp}(-\mu {\rm e}^{-\lambda T}t) \end{aligned} $$ 这是一个以 $\mu{\rm e}^{-\lambda T}$ 为参数的指数分布，因此 $$ E[\tau]=\dfrac{1}{\mu{\rm e}^{-\lambda T} }=\dfrac{ {\rm e}^{-\lambda T} }{\mu} $$

随机过程作业 Chapter4 Markov链

Tue, 15 Apr 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

Sheldon M. Ross "Stochastic Processes" 2nd Edition 随机过程（第二版）习题

4.2

归纳法证之.

① 当 $n=n_k+1$ 时，由 Markov 性立即得 $$ P(X_{n_k+1}=j\mid X_{n_1}=i_1,\cdots,X_{n_k}=i_k)=P(X_{n_k+1}=j\mid X_{n_k}=i_k) $$

② 假设 $n=m>n_k+1$ 时成立 $P(X_m=s\mid X_{n_1}=i_1,\cdots,X_{n_k}=i_k)=P(X_m=s\mid X_{n_k}=i_k)$. 考虑 $n=m+1$，取条件于 $X_m$ 的取值，由 Markov 性及归纳假设得 $$ \begin{aligned} &P(X_{m+1}=j\mid X_{n_1}=i_1,\cdots,X_{n_k}=i_k)\ =,&\textstyle\sum_{s} P(X_{m+1}=j\mid X_m=s,X_{n_1}=i_1,\cdots,X_{n_k}=i_k)\cdot P(X_m=s\mid X_{n_1}=i_1,\cdots,X_{n_k}=i_k)\ =,&\textstyle\sum_{s} P(X_{m+1}=j\mid X_m=s)\cdot P(X_m=s\mid X_{n_k}=i_k)\ =,&P(X_{m+1}=j\mid X_{n_k}=i_k)\quad(\text{Chapman-Kolmogorov}) \end{aligned} $$

于是原命题成立.

4.8

(1) 用 $n_{k}$ 表示第 $k$ 次记录产生的时刻，则 $X_{n_k}=R_k$. 于是 $R_k=r$ 即等价于“$n_k$ 时刻取值为 $r$，且比上一个记录值要大，且两次记录时刻之间的取值均不比上一个记录值大”. 记第 $k$ 次记录与第 $k+1$ 次记录之间间隔 $n_{k+1}-n_k=t$（也即两个记录中间夹 $t-1$ 个值），则取条件于 $t$： $$ \begin{aligned} P\left(R_{k+1}=r\mid R_k=r_0\right)&= \textstyle\sum\limits_{t=1}^\infty P\left(X_{n_{k+1} }=r,,X_{n_{k+1} }>r_0,;,X_{1+{n_k} }\leq r_0,,X_{2+{n_k} }\leq r_0,,\cdots,,X_{t-1+n_{k} }\leq r_0\right)\ &= \textstyle\sum\limits_{t=1}^\infty P\left(X_l=r,,X_{l}>r_0\right)\cdot\big[P\left(X_n\leq r_0\right)\big]^{t-1} \end{aligned} $$ 当 $r\leq r_0$ 时，显然有 $P\left(X_l=r,,X_l>r_0\right)=0$；
当 $r>r_0$ 时，原式 $=\textstyle\sum\limits_{t=0}^\infty P\left(X_l=r\right)\cdot\big[P\left(X_n\leq r_0\right)\big]^{t}=P\left(X_l=r\right)\cdot\dfrac{1}{1-P(X_n\leq r_0)}=\dfrac{\alpha_j}{\sum_{m=r_0+1}^{\infty}\alpha_m}$

因此 $\left{R_k\right}$ 是 Markov 链，转移概率 $$ P\left(R_{k+1}=r\mid R_k=r_0\right)=\begin{cases}0&,,r\leq r_0\\dfrac{\alpha_r}{\sum_{m=r_0+1}^{\infty}\alpha_m}&,,r>r_0\end{cases} $$

(2) 第 $k+1$ 次记录至第 $k+2$ 次记录的时间间隔显然与且只与第 $k+1$ 次记录的值有关，因此 $\left{T_k\right}$ 不是 Markov 链。结合 $\left{R_k\right}$ 的 Markov 性可得 $$ \begin{aligned} &\quad,,P\left(R_{k+1}=r,,T_{k+1}=t\mid R_k=r_0,,T_k=t_0\right)\ &= P\left(R_{k+1}=r,,T_{k+1}=t\mid R_k=r_0\right)\ &= \dfrac{P\left(R_{k+1}=r,,T_{k+1}=t,,T_k=t_0\mid R_k=r_0\right)\bcancel{P(R_k=r_0)} }{P\left(T_k=t_0\mid R_k=r_0\right)\bcancel{P(R_k=r_0)} }\ &= \dfrac{P((t!-!1)个X\leq r,,X_l=r>r_0,,(t_0!-!1)个X\leq r_0)}{P((t_0!-!1)个X\leq r_0)}\ &= P((t!-!1)个X\leq r,,X_l=r>r_0) \end{aligned} $$ 于是由 (1) 的结论，当 $r \leq r_0$ 时为 $0$，当 $r>r_0$ 时 $=P\left(X_l=r\right)\cdot\big[P\left(X_n\leq r_0\right)\big]^{t-1}=\alpha_r\left(\sum\limits_{m=0}^{r}\alpha_m\right)^{t-1}{}$

因此 $\left{(R_k,,T_k)\right}$ 是 Markov 链，转移概率 $$ P\left(R_{k+1}=r,,T_{k+1}=t\mid R_k=r_0,,T_k=t_0\right)=\begin{cases}0&,,r\leq r_0\\alpha_r\left(\sum\limits_{m=0}^{r}\alpha_m\right)^{t-1}&,,r>r_0\end{cases} $$

(3) 由题意，$S_k$ 即第 $k$ 个记录出现的时刻. 欲求 $P(S_{k+1}=s\mid S_k=s_0)$，这个事相当于：

$X_1,\cdots,X_{s-1}$ 的最大值出现在前 $s_0$ 个中，即 $\max(X_1,\dots,X_{s-1})=\max(X_1,\dots,X_{s_0})$. 参考习题1.6可得，当变量为连续型时，右侧max括号内每一个数成为左侧最大值的可能性相同，均为 $\dfrac{1}{s-1}$，因此这部分的概率为 $\dfrac{s_0}{s-1}$；
$X_s$ 是新的记录值，即 $X_s=\max(X_1,\dots,X_s)$，这里的概率为 $\dfrac1s$.

以上两事件独立，故 $P(S_{k+1}=s\mid S_k=s_0)=\dfrac{s_0}{s-1}\dfrac1s\ (s>s_0)$.

于是 $\left{S_n\right}$ 是 Markov 链，转移概率 $$ P(S_{k+1}=s\mid S_k=s_0)=\begin{cases}0&,s\leq s_0 \ \dfrac{s_0}{s(s-1)}&,s>s_0 \end{cases} $$

4.18

(1) $X_n$ 可能的取值只能为 $\left[0,N\right]$ 中的整数. 计算 $P(X_{n+1}=x\mid X_n=x_0)$ 时，假设两次统计之间来了 $k$ 个工作（概率为 $\dfrac{ {\rm e}^{-\lambda}\lambda^k}{\lambda!}$），按 $x_0$ 分两类讨论：
① $x_0=0$ 时，当 $0\leq k<N$ 时 $X_{n+1}$ 的取值 $x=k$，当 $k\geq N$ 时 $x=N$；
② $0< x_0\leq N$ 时，先从队列中扣除一个工作进行处理，当 $0\leq k < N-x_0$ 时 $X_{n+1}$ 的取值 $x=x_0+k-1$，当 $k\geq N-x_0+1$ 时 $x=N$

将参数由 $k$ 代换为 $x$ 即得转移概率表达式 $$ P(X_{n+1}=x\mid X_n=x_0)= \begin{cases} {\dfrac{ {\rm e}^{-\lambda}\lambda^x}{x!} } & x_0=0,,\quad\quad\ 0\leq x<N \ \sum\limits_{k=N}^{\infty} {\dfrac{ {\rm e}^{-\lambda}\lambda^k}{k!} } & x_0=0,,\quad\quad\ x=N \ {\dfrac{ {\rm e}^{-\lambda}\lambda^{x-x_0+1} }{(x-x_0+1)!} } & 0< x_0\leq N,, x_0-1\leq x<N \ \sum\limits_{k=N-x_0+1}^{\infty} \dfrac{ {\rm e}^{-\lambda}\lambda^k}{k!} & 0< x_0\leq N,, x=N \end{cases} $$

(2) 先证明该链不可约且正常返：

若 $X_n=0$，则新到达 $k$ 个工作后，$X_{n+1}=\min(k,N)$，由于 Poisson 分布对任意 $k\in \mathbb{N}$ 都有正概率，故对任意 $0\leq x\leq N$，$P(X_{n+1}=x\mid X_n=0)>0$，即状态 $0$ 可以到达所有状态. 另一方面，对任意 $x_0>0$，每天加工一个工作，新到达 $k$ 个工作后，状态转移为$X_{n+1}=\min(x_0-1+k,N)$，特别地若连续有限天 $k=0$，工作数会递减到达状态 $0$. 因此该链不可约，且状态间是正常返的.

再证明该链非周期：

$P(X_{n+1}=0\mid X_n=0)={\rm e}^{-\lambda}>0$，即状态 $0$ 可以在一步内返回自身，因此周期为 1. 由互通状态周期一致，该链周期为 1，故该链非周期.

因此该链是遍历的.

(3) 平稳概率方程 $\left{\begin{aligned}\pi_j= \sum\limits_i&\pi_iP_{ij}\\sum\limits_{i=0}^N \pi_i=&,1\end{aligned}\right.$. 由 (1) 中的分类，当 $j<N$ 时 $$ \begin{aligned} \pi_j=\sum\limits_{i=0}^N \pi_i P_{ij}&= \pi_0 \cdot \frac{ {\rm e}^{-\lambda}\lambda^j}{j!}+\sum\limits_{i=1}^N \pi_i P_{ij} \ &= \pi_0\cdot{ \frac{ {\rm e}^{-\lambda}\lambda^j}{j!}+\sum\limits_{i=1}^{j+1} \pi_i P_{ij} }\ & =\pi_0 \cdot\frac{ {\rm e}^{-\lambda}\lambda^j}{j!}+\sum\limits_{i=1}^{j+1}\pi_i\cdot\frac{ {\rm e}^{-\lambda}\lambda^{j-i+1} }{(j-i+1)!} \end{aligned} $$ 当 $j=N$ 时，$\pi_N=\sum\limits_{i=0}^N \pi_i P_{i N}=\pi_0 \sum\limits_{i=N}^{\infty}\dfrac{ {\rm e}^{-\lambda}\lambda^i}{i!}+\sum\limits_{i=1}^N \pi_i\left(\sum\limits_{i=N-i+1}^{\infty} \dfrac{ {\rm e}^{-\lambda} \lambda^i}{i!}\right)$

4.23

由例题4.4A，从本金 $i$ 出发最终赢到 $N$ 的概率 $f_i=\begin{cases}\dfrac{1-(q/p)^i}{1-(q/p)^N}&,p\neq\dfrac12\\dfrac iN&,p=\dfrac12\end{cases}{}$

于是 $$ \begin{aligned} P(\text{下一局赢} \mid 从\ i\ 开始赢到\ N)&= \dfrac{P(从\ i\ 开始赢到\ N\mid\text{下一局赢})\cdot P(下一局赢)}{P(从\ i\ 开始赢到\ N)}\ &= \dfrac{P(从\ i+1\ 开始赢到\ N)\cdot P(下一局赢)}{P(从\ i\ 开始赢到\ N)}\ &= \dfrac{p\cdot f_{i+1} }{f_i}\ \end{aligned} $$

因此当 $p\neq\dfrac12$ 时，$\dfrac{p\cdot f_{i+1} }{f_i}= \dfrac{p{(1-(q/p)^{i+1})} }{ {1-(q/p)^i} }$；当 $p=\dfrac12$ 时，$\dfrac{p\cdot f_{i+1} }{f_i}= \dfrac12\dfrac{i+1}{i}=\dfrac{i+1}{2i}{}$

随机过程作业 Chapter3 更新理论

Sat, 12 Apr 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

Sheldon M. Ross "Stochastic Processes" 2nd Edition 随机过程（第二版）习题

3.4

取条件于首次更新的等待时间 $S_1$（也即 $X_1$），并假定积分与求和可交换. 则 $$ \begin{aligned} m(t)&=\sum\limits_{n=1}^{\infty}F_n(t)=F(t)+\sum\limits_{n=2}^{\infty}F_n(t)\ &=F(t)+\sum\limits_{n=2}^{\infty}P(S_n\leqslant t)\ &=F(t)+\sum\limits_{n=2}^{\infty}\displaystyle\int_0^tP(S_n\leqslant t\mid X_1=x),{\rm d}F(x)\ &=F(t)+\sum\limits_{n=2}^{\infty}\displaystyle\int_0^tP(X_1+X_2+\cdots+X_n\leqslant t\mid X_1=x),{\rm d}F(x)\ &=F(t)+\sum\limits_{n=2}^{\infty}\displaystyle\int_0^tP(X_2+\cdots+X_n\leqslant t-x),{\rm d}F(x)\ &=F(t)+\sum\limits_{n=2}^{\infty}\displaystyle\int_0^tF_{n-1}(t-x),{\rm d}F(x)\ &=F(t)+\displaystyle\int_0^t\sum\limits_{n=1}^{\infty}F_{n}(t-x),{\rm d}F(x)\ &=F(t)+\displaystyle\int_0^tm(t-x),{\rm d}F(x) \end{aligned} $$

3.7

将 $F(x)=x,,0\leqslant t\leqslant1$ 代入习题3.4所证结论有 $$ \begin{aligned} m(t)&=t+\displaystyle\int_0^tm(t-x){\rm d}x\ &=t+\displaystyle\int_0^tm(x){\rm d}x\ \end{aligned} $$ 两边对 $t$ 求导得 $$ m'(t)=1+m(t) $$ 解微分方程即可. 令 $g(t)=1+m(t)$，则有 $g'(t)=g(t)$ 即 $\dfrac{ {\rm d}g}{g}={\rm d}t$. 于是 $$ \begin{aligned} \ln g(t)&=t+C\ g(t)&=C {\rm e}^t \end{aligned} $$ 代入 $g(0)=1+m(0)=1$ 得 $C=1$，即 $g(t)={\rm e}^t$. 于是 $m(t)=g(t)-1={\rm e}^t-1$

在 $(0,1]$ 上发生的事件数为 $N(1)$，那么第 $N(1)+1$ 个事件发生的时刻即“第一个在1之后发生的事件”，或者说即“使得间隔之和大于1所需的更新数目”. 于是题目所求即为 $$ E[N(1)+1]=m(1)+1={\rm e} $$

3.10

(1) 事实上 $\sum\limits_{i=1}^m S_i=\sum\limits_{n=1}^{\sum_1^m N_i}X_n=S_{\sum_1^m N_i}$. 令 $k=\sum_1^m N_i$，则当 $m\to\infty$ 时，$k\to\infty$. 于是由强大数定律 $$ \lim\limits_{m\to\infty}\dfrac{\sum_1^m S_i}{\sum_1^m N_i}=\lim\limits_{k\to\infty}\dfrac{S_k}{k}=\mu_X=E[X] $$

(2) $\dfrac{\sum_1^m S_i}{\sum_1^m N_i}=\dfrac{\sum_1^m S_i/m}{\sum_1^m N_i/m}$. 由 $S_i$ 的定义可知，$S_i$ 之间独立同分布. 故当 $m\to\infty$ 时，由强大数定律，分子分母极限都存在 $$ \begin{aligned} \lim\limits_{m\to\infty}\dfrac{\sum_1^m S_i}{m}&=\mu_S=E[S]\ \lim\limits_{m\to\infty}\dfrac{\sum_1^m N_i}{m}&=\mu_N=E[N]\ \end{aligned} $$ 代入即得 $$ \lim\limits_{m\to\infty}\dfrac{\sum_1^m S_i}{\sum_1^m N_i}=\dfrac{\lim\limits_{m\to\infty}\sum_1^m S_i/m}{\lim\limits_{m\to\infty}\sum_1^m N_i/m}=\dfrac{E[S]}{E[N]} $$

(3) 于是 $E[X]=\dfrac{E[S]}{E[N]}$，即 $E[S]=E[X]{E[N]}$. 此即为 Wald 方程.

3.17

对 $g(t)$ 的更新型方程得自取条件于过程按概率意义上重新开始的时刻，对下列函数建立更新型方程：

一个交替更新过程在时刻 $t$ 处于开状态的概率 $P(t)$
更新过程在时刻 $t$ 的期望年龄 $g(t)=E[A(t)]$

使用题示结论给出更新型方程的解，并运用关键更新定理得到上述两题中的极限值.

对更新型方程作 Laplace 变换，由卷积定理得 $$ \begin{aligned} {\mathcal L}[g]&={\mathcal L}[h]+{\mathcal L}[g]{\mathcal L}[F]\ {\mathcal L}[g]&=\dfrac{ {\mathcal L}[h]}{1-{\mathcal L}[F]} \end{aligned} $$

考虑更新函数的 Laplace 变换 $$ \begin{aligned} m(t)&=\sum\limits_{n=1}^{\infty}F_n(t)\ {\mathcal L}[m]&=\sum\limits_{n=1}^{\infty}({\mathcal L}[F])^n\ &=\dfrac{ {\mathcal L}[F]}{1-{\mathcal L}[F]}\ \end{aligned} $$ 于是 ${\mathcal L}[F]=\dfrac{ {\mathcal L}[m]}{1+{\mathcal L}[m]}$. 代入 Laplace 变换后的式子得 $$ \begin{aligned} {\mathcal L}[g]&=\dfrac{ {\mathcal L}[h]}{1-{\mathcal L}[F]}=\dfrac{ {\mathcal L}[h]}{1-\dfrac{ {\mathcal L}[m]}{1+{\mathcal L}[m]} }\ &={\mathcal L}[h](1+{\mathcal L}[m])\ &={\mathcal L}[h]+{\mathcal L}[h]\times{\mathcal L}[m] \end{aligned} $$ 最后做 Laplace 逆变换得 $$ g(t)=h(t)+h*m=h(t)+\displaystyle\int_0^th(t-x),{\rm d}m(x) $$

(1) 称“从关到开”为一次更新，开状态时间序列 $\left{Z_n\right}$ 独立同分布 $H$、关状态时间序列 $\left{Y_n\right}$ 独立同分布 $G$，$X_i=Z_i+Y_i$. 取条件于事件从概率意义上重新开始（即首次更新）的时刻 $$ \begin{aligned} P(t)&=\displaystyle\int_0^{+\infty}P(,t时刻为开\mid X_1=s){\rm d}F(s)\ \end{aligned} $$ 对于 $s\leqslant t$，那么条件概率相当于从 $s$ 时刻重新开始，$\displaystyle\int_0^tP(t-s){\rm d}F(s)$；
对于 $s>t$，“$t$ 时刻处于开状态”等价于“$t<Z_1$”，而 $s$ 从 $t$ 积到正无穷也即所有可能的条件的总和.

于是更新型方程为 $$ \begin{aligned} P(t)&=\displaystyle\int_0^tP(t-s){\rm d}F(s)+\displaystyle\int_t^{+\infty}P(t<Z_1\mid X_1=s){\rm d}F(s)\ &=P(Z_1>t)+\displaystyle\int_0^tP(t-s){\rm d}F(s)\ &=\overline H(t)+\displaystyle\int_0^tP(t-s){\rm d}F(s)\ \end{aligned} $$ 进而 $$ \lim\limits_{t\to {\infty} }P(t)=\dfrac{\int_0^{\infty}\overline H(t){\rm d}t}{\mu_X}=\dfrac{E(Z)}{E(X)} $$

(2) 取条件于事件从概率意义上重新开始（即首次更新）的时刻，拆积分区间，得更新型方程 $$ \begin{aligned} g(t)=E[A(t)]&=\displaystyle\int_0^{\infty}E[A(t)\mid X_1=s]{\rm d}F(s)\ &=\displaystyle\int_t^{+\infty}E(t\mid X_1=s){\rm d}F(s)+\displaystyle\int_9^tE[A(t-s)]{\rm d}F(s)\ &=\displaystyle\int_t^{+\infty}t{\rm d}F(s)+\displaystyle\int_0^tg(t-s){\rm d}F(s)\ &=t\overline F(t)+\displaystyle\int_0^tg(t-s){\rm d}F(s) \end{aligned} $$ 进而 $$ \begin{aligned} \lim\limits_{t\to {\infty} }g(t)&=\dfrac{\int_0^\infty t\overline F(t){\rm d}t}{\mu_X}\ &=\dfrac{\int_0^\infty\overline F(t){\rm d}(\frac12t^2)}{E[X]}\ &=\dfrac{\dfrac12t^2\overline F(t)\bigg|_0^\infty-\displaystyle\int_0^\infty\dfrac12t^2{\rm d}\overline F(t)}{E[X]}\ &=\dfrac{0+\dfrac12\displaystyle\int_0^\infty t^2{\rm d} F(t)}{E[X]}\ &=\dfrac{E[X^2]}{2E[X]} \end{aligned} $$

3.27

假定 $X_i$ 的分布不是格点的，而有关的任何函数都是直接 Riemann 可积的，当循环的报酬定义为等于循环的长度时，上式导致 $$ \lim\limits_{t\to\infty}E[X_{N(t)+1}]=\dfrac{E[X^2]}{E[X]} $$ 请说明：它总是大于 $E[X]$，除非 $X$ 以概率1地是常数.

取条件于 $S_{N(t)}$ 的值，将报酬转化到第一个更新区间内. 参考交替更新中处于开状态的概率的极限，需要对 $S_{N(t)}=0$ 单独讨论，注意到此时 $N(t)=0$. $$ \begin{aligned} E[R_{N(t)+1}]&=E[R_{N(t)+1}\mid S_{N(t)}=0],\overline F(t){\rm d}m(0)+\displaystyle\int_0^{t} E[R_{N(t)+1}\mid S_{N(t)}=s]P(S_{N(t)}=s)\ &=E[R_1\mid X_1>t],\overline F(t)+\displaystyle\int_0^{t} E[R_1\mid X_1>t-s],\overline F(t-s){\rm d}m(s)\ \end{aligned} $$ 令 $t\to {+\infty}$，前项中 $\overline F(\infty)=0$，后项使用关键更新定理 $$ \begin{aligned} \lim\limits_{t\to \infty}E[R_{N(t)+1}]&=\dfrac1{\mu_X}\displaystyle\int_0^{+\infty}E[R_1\mid X_1=\tau]\overline F(\tau){\rm d}\tau\quad(\tau 换成 x)\ &=\dfrac{1}{E(X_1)}\displaystyle\int_0^{+\infty}\overline F(x){\rm d}x\displaystyle\int_0^{+\infty}rP(R_1=r\mid X_1=x)\ &=\dfrac{1}{E(X_1)}\displaystyle\int_0^{+\infty}\displaystyle\int_0^{+\infty}xP(X_1=x)rP(R_1=r\mid X_1=x)\ &=\dfrac{1}{E(X_1)}\displaystyle\int_0^{+\infty}\displaystyle\int_0^{+\infty}rxP(R_1=r,,X_1=x)\ &=\dfrac{E(R_1X_1)}{E(X_1)} \end{aligned} $$

而 $D(X)=E(X^2)-E^2(X)\geqslant0$，故$E(X^2)\geqslant E^2(X)$，即 $$ \lim\limits_{t\to\infty}E[X_{N(t)+1}]=\dfrac{E[X^2]}{E[X]}\geqslant\dfrac{E^2(X)}{E(X)}=E(X) $$ 上式取等号当且仅当 $D(X)=0$，即 $X$ 为常数.

3.32

(1) 在首个顾客到达时开始计时. 每当顾客发现系统为空的时候，这个过程相当于在概率意义上重新开始. 进一步定义 $t$ 时刻系统的状态数 $j$ 等于系统中的顾客数 $Y(t)$，那么 ${Y(t),t>0}$ 是一个再现过程. 于是所求比例即为状态0的时间的长程比.
假设一个循环中服务的顾客数为 $N_i$，单个顾客的服务时间为 $T_j$，则 $$ \begin{aligned} \lim\limits_{t\to\infty}\dfrac{处于状态0的总时间}{t}&=\dfrac{E[单循环中系统内系统顾客为0的时间]}{E[循环周期]}\ &=\dfrac{E\left[\sum\limits_1^{N_i}X_j-\sum\limits_1^{N_i}T_j\right]}{E\left[\sum\limits_1^{N_i}X_j\right]}\ &=\dfrac{EN}{E[N]E[X]}\quad(\text{Wald})\ &=\dfrac{\mu_X-\mu_G}{\mu_X}\ &=1-\dfrac{\mu_G}{\mu_X} \end{aligned} $$ 也即 $P_0=1-\dfrac{\mu_G}{1/\lambda}=1-\lambda\mu_G$

(2) $$ \lim\limits_{t\to \infty}P(t时刻在忙期内)=\dfrac{E[忙期时间]}{E[忙期时间]+E[空闲时间]}=1-P_0=\lambda\mu_G $$ 空闲时间即为“单循环中最后一位顾客离开、到下一个顾客到来”的这段时间，其分布即到达间隔分布，即 $$ E[空闲时间]=E[X]=\dfrac1\lambda $$ 于是 $$ \begin{aligned} \dfrac{E[忙期时间]}{E[忙期时间]+E[空闲时间]}&=\lambda\mu_G\ E[忙期]=\dfrac{\lambda\mu_GE[空闲时间]}{1-\lambda\mu_G}&=\frac{\mu_G}{1-\lambda\mu_G} \end{aligned} $$

(3) 设一个忙期内共 $N$ 人接受了服务，则由 Wald $$ \begin{aligned} E[B]&=E\left[\sum\limits_1^NT_i\right]=E[N]E[T_i]\ E[N]&=\dfrac{E[B]}{E[T_i]}=\dfrac{1}{1-\lambda\mu_G} \end{aligned} $$

随机过程作业 Chapter2 Poisson过程

Sat, 29 Mar 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

Sheldon M. Ross "Stochastic Processes" 2nd Edition 随机过程（第二版）习题

2.2

(1) 令 $P_n(t)=P(N(t)=n)$. 于是 $$ \begin{aligned} P_0(t+s)&=P\left(N(t+s)=0\right)\ &=P(N(t)=0, , N(t+s)-N(t)=0)\ &=P(N(t)=0)\cdot P(N(t+s)-N(t)=0)\quad(独立性)\ &=P(N(t)=0)\cdot P(N(s)=0)\quad(平稳性)\ &=P_0(t)P_0(s) \end{aligned} $$

(2) 由 $P_0(s+t)=P_0(s)P_0(t)$ 得 $P_0$ 为指数函数. 设 $P_0(t)={\rm e}^{\alpha t}{}$.

由第二定义有， $$ P_0(t)=P(N(t)=0)=1-P(N(t)=1)-P(N(t)\geqslant2)\ =1-\lambda t+o(t) $$

将 $P_0$ 指数函数形式 Taylor 展开到1阶 $$ \begin{aligned}P_0(t)={\rm e}^{\alpha t}&=1+\alpha t+o(t)\&=1-\lambda t+o(t)\end{aligned}{} $$

于是 $\alpha=-\lambda$，$P_0(t)={\rm e}^{-\lambda t}{}$

故：

$P(X_1>t)=P(N(t)=0)={\rm e}^{-\lambda t}{}$
$\begin{aligned}P(X_2>t\mid X_1=s)&=P\big(在区间(s,s+t]上0个事件\mid X_1=t\big)\&=P\big(N(t)=0\big)\quad(独立平稳)\&={\rm e}^{-\lambda t}\end{aligned}{}$
以此类推可得 $P(X_i>t)={\rm e}^{-\lambda t}{}$，即 $X_1,X_2,\cdots$ 独立同分布，服从速率为 $\lambda$ 的指数分布.

(3) 到达时间 $S_n$ 服从参数为 $k$ 与 $\lambda$ 的 gamma 分布. 于是 $$ \begin{aligned} P\big(N(t)=k\big)&=P(S_{k+1}>t)-P(S_k\leqslant t)\ &=\int_t^{+\infty}\dfrac{\lambda {\rm e}^{-\lambda \tau}(\lambda\tau)^k}{k!}{\rm d}\tau-\int_t^{+\infty}\dfrac{\lambda {\rm e}^{-\lambda \tau}(\lambda\tau)^{k-1} }{(k-1)!}{\rm d}\tau\ &=\dfrac{1}{k!}\int_{\lambda t}^{+\infty}{\rm e}^{-u}u^k{\rm d}u-\dfrac{1}{(k-1)!}\int_{\lambda t}^{+\infty}{\rm e}^{-u}u^{k-1}{\rm d}u\ &=\dfrac{1}{k!}\left(-{\rm e}^{-u}u^k\bigg|^{+\infty}{\lambda t}+\int{\lambda t}^{+\infty}{\rm e}^{-u}ku^{k-1}{\rm d}u\right)-\dfrac{1}{(k-1)!}\int_{\lambda t}^{+\infty}{\rm e}^{-u}u^{k-1}{\rm d}u\ &=\dfrac{ {\rm e}^{-\lambda t}(\lambda t)^k}{k!}+减号后面的积分-减号后面的积分\ &=\dfrac{ {\rm e}^{-\lambda t}(\lambda t)^k}{k!} \end{aligned} $$

即 $N(t)$ 服从均值为 $\lambda t$ 的 Poisson 分布.

2.5

(1) 令 $N(t)=N_1(t)+N_2(t)$. 使用第二定义证明 ${N(t)}{}$ 是速率为 $\lambda_1+\lambda_2$ 的 Poisson 过程.

条件一：$N(0)=N_1(0)+N_2(0)=0$，满足.
条件二：$N(s+t)-N(s)=\big[N_1(s+t)-N_1(s)\big]+\big[N_2(s+t)-N_2(s)\big]$，由 ${N_1(t)}{}$ 和 ${N_2(t)}{}$ 的独立平稳增量可推得 $N(t)$ 也具有独立平稳增量.
条件三： $$ \begin{aligned}P\left(N(h)=1\right)&=P\left(N_1(h)=1,,N_2(h)=0\right)+P\left(N_1(h)=1,,N_2(h)=0\right)\&=(\lambda_1h+o(h))(1-\lambda_2h+o(h))+(\lambda_2h+o(h))(1-\lambda_1h+o(h))\&=\lambda_1h-\lambda_1\lambda_2h^2+\lambda_2h-\lambda_1\lambda_2h^2+o(h)\&=(\lambda_1+\lambda_2)h+o(h)\end{aligned}{} $$
条件四： $$ \begin{aligned}P\left(N(h)=0\right)&=P\left(N_1(h)=0,,N_2(h)=0\right)\&=(1-\lambda_1h+o(h))(1-\lambda_1h+o(h))\&=1-(\lambda_1+\lambda_2)h+o(h)\P\left(N(h)\geqslant 2\right)&=1-P_0-P_1=o(h)\end{aligned}{} $$

于是 $\left{N(t)\right}{}$ 是速率 $\lambda=\lambda_1+\lambda_2$ 的 Poisson 过程.

(2) $$ \begin{aligned} P\big(第一个事件来自{N_1(t)}\big)&=\dfrac{P\big(N_1(t)=1,,N_2(t)=0\big)}{P(N(t)=1)}\ &=\frac{ {\rm e}^{-\lambda_1t}(\lambda_1t)\cdot {\rm e}^{-\lambda_2t} }{ {\rm e}^{-\lambda t}(\lambda t)}\ &=\dfrac{\lambda_1}{\lambda_1+\lambda_2} \end{aligned} $$

2.13

记原始冲击过程为 $\left{N(t)\right}{}$. 若一次冲击使得系统失效，则称该冲击是Ⅰ类的，否则称为Ⅱ类的. 由分类定律有，Ⅰ类冲击过程 $\left{N_1(t)\right}{}$ 是速率为 $\lambda p$ 的 Poisson 过程，Ⅱ类冲击过程 $\left{N_2(t)\right}{}$ 是速率为 $\lambda (1-p)$ 的 Poisson 过程.

$P(N=n\mid T=t)=\dfrac{P(N=n,,T=t)}{P(T=t)}{}$. 分母即“Ⅰ类冲击首次发生的时刻为 $t$”，分子即“时刻 $t$ 及以前共 $n$ 次冲击，其中时刻 $t$ 发生Ⅰ类冲击、其他 $n-1$ 次为Ⅱ类冲击”.

使用到达时间刻画事件发生的时刻. 记Ⅰ类冲击过程的到达时间序列为 $\left{S_n^{(1)}\right}{}$. 则 $$ \begin{aligned} P(N=n\mid T=t)&=\dfrac{P(N=n,,T=t)}{P(T=t)}\ &=\dfrac{P(N_2(t)=n-1,S_1^{(1)}=t)}{P(S_1^{(1)}=t)}\ &=\dfrac{P(N_2(t)=n-1)\cdot P(S_1^{(1)}=t)}{P(S_1^{(1)}=t)}\quad(N_1,N_2 两过程相独立)\ &=P(N_2(t)=n-1)={\rm e}^{-\lambda t(1-p)}\dfrac{(\lambda t(1-p))^{n-1} }{(n-1)!}\ \end{aligned} $$

2.15

假设投掷按速率为 $\lambda=1$ 的 Poisson 过程执行，以 $T_i$ 记第 $n_i$ 次出现面 $i$ 时的投掷数. 令 $T=\min T_i$.

求 $T_i$ 的分布
判断 $T_i$ 之间是否独立
推导 $E[T_i]$ 的一个表达式
进一步地，推导 $E[N]$ 的一个表达式

(1) 题目描述的就是负二项分布的定义，其所指的变量为 Bernoulli 试验中恰好成功 $n_i$ 次时的试验次数，其中试验成功的概率为 $P_i$.

(2) 不独立. 假定只有 1 和 2 两面，投出 1 面的概率为 $p$，$n_1=n_2=2$. 由负二项分布或者直接推理，事件 $N_1=k$ 发生，iff 第 $k$ 次投掷为面1、前 $k-1$ 次投掷中有一个面1、其余都是面2. 即 $$ P(N_1=k)=\binom{k-1}{1}p^2(1-p)^{k-2} $$ 而若给定 $N_2=k$，事件 $N_1=k \mid N_2=k$ 不可能发生，因为第 $k$ 次投掷结果只可能是1或2的其中一个，不可能恰好同时满足 $N_1=n_1$、$N_2=n_2$，必然有一个面是先达成所需次数 $n_i$、而另一个面未达成. 即 $$ P(N_1=k \mid N_2=k)=0\neq P(N_1=k) $$ 于是不独立.

(3) 假设投出面 $i$ 的事件为第 $i$ 类. 由 $\left{N(t)\right}{}$ 为 Poisson 过程可知，${N_i(t)}{}$ 是相互独立的、速率为 $\lambda P_i=P_i$ 的 Poisson 过程. 而 $T_i$ 则是过程 $\left{N_i(t)\right}{}$ 第 $n_i$ 个事件发生的到达时间，故 $T_i$ 服从参数为 $n_i$ 和 $P_i$ 的 gamma 分布.

(4) 独立. 一方面，事件的归类是独立的；另一方面，$T_i$ 的分布参数只与它自己的 $n_i$ 和 $P_i$ 有关.

(5) 以 $\left{Y_{i,1},,Y_{i,2},,\cdots\right}{}$ 表示过程 $\left{N_i(t)\right}{}$ 的到达间隔时间序列，可知 $Y_{i,j}{}$ 服从速率为 $P_i$ 的指数分布，即 $E[Y_{i,j}]=\dfrac{1}{P_i}{}$. 于是 $$ E[T_i]=E[\sum\limits_{j=1}^{n_i}Y_{i,j}]=\sum\limits_{j=1}^{n_i}E[Y_{i,j}]=\dfrac{n_i}{P_i}{} $$

(6) 题目隐含了一个意思，即通过一个特殊的连续的投掷过程，可以得到 $N$ 的期望. 于是可以猜想 $T$ 与 $N$ 的期望存在某种直接关联.

于是首先计算 $T$ 的期望. $T_i$ 是参数为 $n_i$ 和 $P_i$ 的 gamma 分布，其分布函数 $$ F(t)=\displaystyle\int_0^tf(\tau){\rm d}\tau=\displaystyle\int_0^t\dfrac{P_i {\rm e}^{-P_i\tau}(P_i\tau)^{n-1} }{(n-1)!}{\rm d}\tau $$ $T$ 是 $T_i$ 的最小值，故 $T$ 的分布函数 $G(t)=1-\prod\limits_{i=1}^r(1-F(t))$. 于是 $$ \begin{aligned} E[T]&=\displaystyle\int_0^{+\infty}P(T>t){\rm d}t\ &=\displaystyle\int_0^{+\infty}(1-G(t)){\rm d}t\ &=\displaystyle\int_0^{+\infty}\prod\limits_{i=1}^r(1-F(t)){\rm d}t\ &=\displaystyle\int_0^{+\infty}\prod\limits_{i=1}^r\left(\displaystyle\int_t^{+\infty}\dfrac{P_i {\rm e}^{-P_i\tau}(P_i\tau)^{n_i-1} }{(n_i-1)!}{\rm d}\tau\right){\rm d}t\ \end{aligned} $$

由题意，投掷次数到达 $N$ 的时刻为 $t=T$，于是 $T=\sum\limits_1^NX_i$，其中 $X_i$ 为投掷的到达间隔时间序列. 对上式取期望得 $$ E[T]=E\left[\sum\limits_{j=1}^NX_i\right] $$ 取条件于 $N$ 的值， $$ \begin{aligned} E[T]&=E\left[E\left[\sum\limits_{j=1}^NX_i,\bigg|, N\right]\right]\ &=E\left[\sum\limits_{j=1}^NE\left[X_i\right]\right]\ &=E\left[NE(X_i)\right]=E[N\lambda]\quad(X_i\sim E(\lambda))\ &=E[N] \end{aligned} $$

于是 $E[N]=E[T]=\displaystyle\int_0^{+\infty}\prod\limits_{i=1}^r\left(\displaystyle\int_t^{+\infty}\dfrac{P_i {\rm e}^{-P_i\tau}(P_i\tau)^{n_i-1} }{(n_i-1)!}{\rm d}\tau\right){\rm d}t$

2.25

用 $Y_i$ 表示第 $i$ 个事件的贡献值. 由题意，它的分布依赖于该事件发生的时间，即 $$ P(Y_i<y\mid S_i=s)=F_s(y) $$

故取条件于该事件发生的时间. 记该事件发生的时间的PDF为 $g$，则贡献值的分布函数 $$ \begin{aligned} P(Y_i<y)&=\sum\limits_tP(Y_i<y\mid S_i=s)P(S_i=s)\ &=\displaystyle\int_0^tP(Y_i<y\mid S_i=s)g(s){\rm d}s\ \end{aligned} $$

而当 $N(t)$ 给定时，由均匀分布定律，$S_i\sim U[0,t]$，故 $g(s)=\dfrac1t$. 故贡献值的分布函数 $$ P(Y_i<y)=\dfrac1t\displaystyle\int_0^tF_s(y){\rm d}s $$

该式与 $i$ 无关，于是各个 $Y_i$ 之间独立同分布. 又 $\left{N(t)\right}{}$ 为 Poisson 过程，故贡献和 $W=\sum\limits_{i=1}^{N(t)}Y_i$ 是一个复合 Poisson 变量，分量分布函数即 $P(Y_i<y)=\dfrac1t\displaystyle\int_0^tF_s(y){\rm d}s$，均值即 $N(t)$ 的均值 $\lambda t$.

2.41

(1) 取条件于 $\Lambda$ 的分布 $G$，于是增量的分布为 $$ P\big(N(t+s)-N(s)=n\big)=\displaystyle\int_{0}^{+\infty}{\rm e}^{-\lambda t}\frac{(\lambda t)^{n} }{n!}{\rm d}G(\lambda) $$ 该式不含区间起点 $s$，说明相同长度 $t$ 的时间区间上增量的分布一致，即该过程有平稳增量.

不满足独立性. 考虑下面这一情形 $$ \begin{aligned} P(N(2t)-N(t)=0)&=\displaystyle\int_{0}^{+\infty}{\rm e}^{-\lambda t}{\rm d}G(\lambda)\ P(N(2t)-N(t)=0\mid N(t)=0)&=P(N(2t)=0)=\displaystyle\int_0^{+\infty}{\rm e}^{-\lambda2t}{\rm d}G(\lambda) \end{aligned} $$ 对于一般的 $G$ 均不能使得二者相等，故没有独立性.

(2) 已知历史，即已知 $[0,t]$ 上所有事件的到达间隔时间. 取条件于这些历史 $$ \begin{aligned} &\quad\ P(\Lambda=\lambda\mid X_1=x_1,,X_2=x_2,,\cdots,,X_{N(t)}=x_{N(t)})\ &=\dfrac{P\big(X_1=x_1,,X_2=x_2,,\cdots,,X_{N(t)}=x_{N(t)}\mid \Lambda=\lambda\big)\cdot P(\Lambda=\lambda)}{P\big(X_1=x_1,,X_2=x_2,,\cdots,,X_{N(t)}=x_{N(t)}\big)}\ &=\dfrac{\prod_{1}^{N(t)}\lambda{\rm e}^{-\lambda x_i}\cdot{\rm d}G(\lambda)}{分子对\lambda在0到\infty积分}\ &=\dfrac{\lambda^{N(t)}{\rm e}^{-\lambda\sum x_i}\cdot{\rm d}G(\lambda)}{分子对\lambda在0到\infty积分}\ &=\dfrac{\lambda^{N(t)}{\rm e}^{-\lambda t}\cdot{\rm d}G(\lambda)}{分子对\lambda在0到\infty积分}\ \end{aligned} $$

于是 $\Lambda$ 的分布 $$ \begin{aligned} &\quad\ P(\Lambda<\lambda\mid X_1=x_1,,X_2=x_2,,\cdots,,X_{N(t)}=x_{N(t)})\ &=\int_0^\lambda\dfrac{\lambda^{N(t)}{\rm e}^{-\lambda t}\cdot{\rm d}G(\lambda)}{\int_0^{+\infty}\lambda^{N(t)}{\rm e}^{-\lambda t}\cdot{\rm d}G(\lambda)}\ &=\dfrac{\int_0^\lambda\lambda^{N(t)}{\rm e}^{-\lambda t}\cdot{\rm d}G(\lambda)}{\int_0^{+\infty}\lambda^{N(t)}{\rm e}^{-\lambda t}\cdot{\rm d}G(\lambda)}\ \end{aligned} $$

可以看到，$\Lambda$ 基于历史的分布仅依赖于 $N(t)$，与 $N(s)\ (0<s<t)$ 无关. 这是合理的，因为当 $N(t)$ 已知时，由均匀分布定律，此前的到达时间序列为 $[0,t]$ 上 $n$ 个独立均匀分布的顺序统计量，这与 $\Lambda$ 的取值无关.

(3) $t$ 后首个事件即为第 $n+1$ 个事件. 设过了 $s$ 发生这个事件，则其发生时间分布 $$ \begin{aligned} P(S_{n+1}>t+s \mid N(t)=n)&=\dfrac{P(N(t+s)=n,,N(t)=n)}{P(N(t)=n)}\ &=\dfrac{P(N(t+s)-N(t)=0,,N(t)=n)}{P(N(t)=n)}\ &=\dfrac{P(N(s)=0,,N(t)=n)}{P(N(t)=n)}\ \end{aligned} $$

对分子取条件于 $\Lambda$，这样可以利用独立性，有 $$ \begin{aligned} P(N(s)=0,,N(t)=n)&=\displaystyle\int_0^{+\infty}P(N(s)=0,,N(t)=n\mid \Lambda=\lambda)\cdot{\rm d}G(\lambda)\ &=\displaystyle\int_0^{+\infty}P(N(s)=0\mid \Lambda=\lambda)\cdot P(N(t)=n\mid \Lambda=\lambda)\cdot {\rm d}G(\lambda)\ &=\displaystyle\int_0^{+\infty}{\rm e}^{-\lambda s}{\rm e}^{-\lambda t}\dfrac{(\lambda t)^n}{n!}{\rm d}G(\lambda) \end{aligned} $$ 分母事实上是分子计算步骤的一部分 $$ \begin{aligned} P(N(t)=n)&=\displaystyle\int_0^{+\infty}P(N(t)=n\mid \Lambda=\lambda)\cdot{\rm d}G(\lambda)\ &=\displaystyle\int_0^{+\infty}{\rm e}^{-\lambda t}\dfrac{(\lambda t)^n}{n!}{\rm d}G(\lambda) \end{aligned} $$ 代入表达式即可 $$ \begin{aligned} P(S_{n+1}>t+s \mid N(t)=n)&=\dfrac{P(N(s)=0,,N(t)=n)}{P(N(t)=n)}\ &=\dfrac{\int_0^{+\infty}{\rm e}^{-\lambda s}{\rm e}^{-\lambda t}\frac{(\lambda t)^n}{n!}{\rm d}G(\lambda)}{\int_0^{+\infty}{\rm e}^{-\lambda t}\frac{(\lambda t)^n}{n!}{\rm d}G(\lambda)}\ &=\dfrac{\int_0^{+\infty}{\rm e}^{-\lambda s}{\rm e}^{-\lambda t}{\lambda^n}{\rm d}G(\lambda)}{\int_0^{+\infty}{\rm e}^{-\lambda t}\lambda^n{\rm d}G(\lambda)} \end{aligned} $$

(4) 取条件于 $\Lambda$ 的分布 $G$ $$ \begin{aligned} &\quad\lim\limits_{h\to0}\dfrac{P(N(h)\geqslant1)}{h}\ &=\lim\limits_{h\to0}\dfrac{\sum_\lambda P(N(h)\geqslant1\mid \Lambda=\lambda)\cdot P(\Lambda=\lambda)}{h}\ &=\lim\limits_{h\to0}\dfrac{\int_{0}^{+\infty}(1-P(N(h)=0))\cdot {\rm d}G(\lambda)}{h}\ &=\lim\limits_{h\to0}\dfrac{\int_{0}^{+\infty}(1-{\rm e}^{-\lambda h})\cdot {\rm d}G(\lambda)}{h}\ &=\int_{0}^{+\infty}\lim\limits_{h\to0}\dfrac{(1-{\rm e}^{-\lambda h})}{h}\cdot {\rm d}G(\lambda)\ &=\int_{0}^{+\infty}\lambda\cdot {\rm d}G(\lambda)\ \end{aligned} $$

(5) 取条件于 $\Lambda$ 的值，计算 $X_i$ 的分布 $$ \begin{aligned} P(X_i<x)&=\displaystyle\int_0^{+\infty}P(X_i<x\mid \Lambda=\lambda)\cdot {\rm d}G(\lambda)\ &=\displaystyle\int_0^{+\infty}(1-{\rm e}^{=\lambda x}),{\rm d}G(\lambda) \end{aligned} $$

故它们同分布（因为在 $\Lambda=\lambda$ 的条件下，到达间隔时间都服从 $E(\lambda)$）.

而 $\text{Cov}(X_i,,X_j)=\text{Cov}(X_i,,X_i)=\text{Var}(X_i)=\dfrac{1}{\lambda^2}\neq0$，说明 $X_i$ 与 $X_j$ 相关，即不独立.

随机过程作业 Chapter1 再论概率

Wed, 19 Mar 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

Sheldon M. Ross "Stochastic Processes" 2nd Edition 随机过程（第二版）习题

1.5

$N_1,\cdots,N_r$ 之联合分布
$\mathrm{Cov}(,N_{i},,,N_{j},)$
出现次数为 0 的个数之均值与方差

解：

(1) 先按乘法公式给出单个情形的概率，再乘以重复个数. 于是有 $$ \begin{aligned} P,{N_1=n_1,,,N_2=n_2,,\cdots,N_r=n_r}&=p_1^{n_1}p_2^{n_2}\cdots p_r^{n_r}\cdot{n\choose n_1}{n-n_1\choose n_2}{n-n_1-n_2\choose n_3}\&\quad\ \cdots{n_{r-1}+n_r\choose n_r}{n_r\choose n_r} \end{aligned} $$ 组合数的乘积，分母是 $\prod\limits_{j=1}^r\left(n_j!\right)$，分子是 $n$ 乘到 $n-n_1$、再从 $n-n_1$ 乘到 $n-n_1-n_2$，一直下去全乘一起就是 $n!$. 于是所求联合分布 $$ P,{N_1=n_1,,,N_2=n_2,,\cdots,N_r=n_r}=p_1^{n_1}p_2^{n_2}\cdots\times\frac{n!}{\prod\limits_{j=1}^r(n_j!)}=n!\times\prod\limits_{j=1}^r\dfrac{p_j^{r_j}}{n_j!} $$

(2) 依题意易知 $N_i\sim B\left(n,,p_i\right)$、$N_j\sim B\left(n,,p_j\right)$，于是由二项分布的性质立即有 $$ \begin{matrix}{\mathrm{Var}}\left(N_i\right)=np_i\left(1-p_i\right)\{\mathrm{Var}}\left(N_j\right)=np_j\left(1-p_j\right)\end{matrix} $$

使用公式 ${\mathrm{Var}}\left(N_i+N_j\right)={\mathrm{Var}}\left(N_i\right)+{\mathrm{Var}}\left(N_j\right)+2{\mathrm{\ Cov}}\left(N_i,N_j\right)$ 计算所求值. 由 $$ \begin{aligned} P\left(N_i+N_j=k\right)&=\sum\limits_{m=0}^kp_i^mp_j^{k-m}\left(1-p_i-p_j\right)^{n-k}\dfrac{n!}{m!(k-m)!(n-k)!} \ &=\left(1-p_i-p_j\right)^{n-k}\dfrac{n!}{(n-k)!k!}\sum\limits_{m=0}^kp_i^mp_j^{k-m}\dfrac{k!}{m!(k-m)!} \ &=\left(1-p_i-p_j\right)^{n-k}{n\choose k}\sum\limits_{m=0}^kp_i^mp_j^{k-m}{k\choose m}\ &=\left(1-p_i-p_j\right)^{n-k}{n\choose k}\left(p_i+p_j\right)^k\ &=\left(p_i+p_j\right)^k\left(1-p_i-p_j\right)^{n-k}{n\choose k}\ \end{aligned} $$ 得，该分布具有二项分布形式，$N_i+N_j\sim B\left(n, ,p_i+p_j\right)$. 于是 $$ \begin{aligned} {\mathrm{Var}}\left(N_i+N_j\right)&=np_i\left(1-p_i\right)+np_j\left(1-p_j\right)+2{\mathrm{\ Cov}}\left(N_i,N_j\right)\&=n(p_i+p_j)(1-p_i-p_j) \end{aligned} $$ 移项展开，一次项和平方项恰好消去，解得 ${\mathrm{Cov}}\left(N_i,,N_j\right)=-np_ip_j$

(3) 由二项分布有 $P\left(N_j=0\right)=(1-p_j)^n$. 令 $I_j=\begin{cases}1,,N_j=0\0,,\text{ohters}\end{cases}$，则出现次数为 0 的个数 $V=\sum\limits I_j$，于是 $$ \begin{aligned} E\left(V\right)&=\sum\limits E\left(I_j\right)=\sum\limits_{i=1}^r(1-p_j)^n \ \ D\left(V\right)&=\sum\limits D\left(I_j\right)+2,\mathop{\sum\sum}\limits_{i<j}{\rm ,Cov}\left(I_i, ,I_j\right) \ &=\sum\limits_{i=1}^rn(1-p_j)^n(1-(1-p_j)^n)+2,\mathop{\sum\sum}\limits_{i<j}\left(E(I_iI_j)-E(I_i)E(I_j)\right) \end{aligned} $$ 其中 $E(I_i)=(1-p_i)^n$、$E(I_j)=(1-p_j)^n$

事件 $I_iI_j=1$ 表示 $N_i=0$ 且 $N_j=0$，于是$E(I_iI_j)=P(N_i=0,,N_j=0)=(1-p_i-p_j)^n$，代入 $D(V)$ 式即得解.

1.6

(1) 记 $X_i$ 的分布函数为 $F(x_i)$、其PDF为 $f(x_i)$. 由独立性可求得各个时刻产生记录的概率： $$ \begin{aligned} P\left(X_2>X_1\right) &=\displaystyle\int_{-\infty}^{+\infty}\displaystyle\int_{-\infty}^{x_2}f(x_1)f(x_2)\ {\mathrm d}x_1{\mathrm d}x_2 \ &=\displaystyle\int_{-\infty}^{+\infty}f(x_2)\displaystyle\int_{-\infty}^{x_1}f(x_1)\ {\mathrm d}x_1{\mathrm d}x_2 \ &=\displaystyle\int_{-\infty}^{+\infty}f(x_2)F(x_2)\ {\mathrm d}x_2 \ &=\displaystyle\int_{-\infty}^{+\infty}F(x_2)\ {\mathrm d}F(x_2) \ &=\displaystyle\int_0^1t\ {\mathrm d}t=\frac12 \end{aligned} $$ $$ \begin{aligned} P\left(X_3>X_1,,X_3>X_2\right) &=\displaystyle\int_{-\infty}^{+\infty}\displaystyle\int_{-\infty}^{x_3}\displaystyle\int_{-\infty}^{x_3}f(x_1)f(x_2)f(x_3)\ {\mathrm d}x_1{\mathrm d}x_2{\mathrm d}x_3 \ &=\displaystyle\int_{-\infty}^{+\infty}\displaystyle\int_{-\infty}^{x_3}f(x_2)f(x_3)\displaystyle\int_{-\infty}^{x_3}f(x_1)\ {\mathrm d}x_1{\mathrm d}x_2{\mathrm d}x_3 \ &=\displaystyle\int_{-\infty}^{+\infty}f(x_3)\displaystyle\int_{-\infty}^{x_3}f(x_2)F(x_3)\ {\mathrm d}x_2{\mathrm d}x_3 \ &=\displaystyle\int_{-\infty}^{+\infty}f(x_3)F(x_3)\displaystyle\int_{-\infty}^{x_3}f(x_2)\ {\mathrm d}x_2{\mathrm d}x_3 \ &=\displaystyle\int_{-\infty}^{+\infty}f(x_3)F^2(x_3)\ {\mathrm d}x_3 \ &=\displaystyle\int_{-\infty}^{+\infty}F^2(x_3)\ {\mathrm d}F(x_3) \ &=\displaystyle\int_0^1t^2\ {\mathrm d}t=\frac13 \end{aligned} $$
同理可依次推得 $P\left(X_n>\max\left(X_1,\cdots,X_{n-1}\right)\right)=\dfrac1n$

令 $I_n=\begin{cases}1,,n时产生记录\0,,\text{ohters}\end{cases}$，显然他们相互独立. 于是 $N_n=\sum_1^n I_j$，于是 $$ \begin{matrix} E\left(N_n\right)=\sum\limits_{j=1}^nE\left(I_j\right)=\sum\limits_{j=1}^nE\left(I_j\right)=\sum\limits_{j=1}^n\dfrac1j\ D\left(N_n\right)=\sum\limits_{j=1}^nD\left(I_j\right)=\sum\limits_{j=1}^n\dfrac1j\left(1-\dfrac1j\right) \end{matrix} $$

(2) 第一次产生记录是在 $n$ 时刻之后，说明在 $n$ 及之前均没有产生记录，即都不比 $X_1$ 大. $$ P(T>n)=P(X_1>X_2,,X_1>X_3,,\cdots,,X_1>X_{n})=\frac1n $$ 于是 $P(T<\infty)=\lim\limits_{n\to\infty}P(T<n)=1-\lim\limits_{n\to\infty}P(T\geq n)=1-0=1$

而 $E(T)=\sum_1^{+\infty} nP(T=n)=\sum_1^{+\infty} P(T>n)=\sum_1^{+\infty} 1/n$，调和级数趋无穷，故 $E(T)=\infty$

(3) 假设 $T_y=n$ 时产生记录，则该条件下记录值的分布为 $$ \begin{aligned} P\left(X_{T_y}<k\mid T_y=n\right)&=P\left(X_n<k\mid X_n>y,,X_1<y,,\cdots,X_{n-1}<y\right)\ &=\frac{P\left(y<X_n<k\right)}{P(X_n>y)}\quad(由各个X_j的独立性)\ &=\dfrac{F(k)-F(y)}{1-F(y)}\quad(k\leq y\ 时取\ 0) \end{aligned} $$ 说明 $X_{T_y}$ 的分布与 $T_y$ 的取值 $n$ 无关，于是二者独立

1.11

(1) 幂级数在其收敛域内可逐项求导，于是 $$ \begin{aligned} \dfrac{\mathrm{d}^{k}}{\mathrm{d}z^{k}}P(z)&=\sum\limits_{j=0}^\infty\dfrac{\mathrm{d}^{k}z^j}{\mathrm{d}z^{k}}P\left(X=j\right)\ &=\sum\limits_{j=k}^\infty\dfrac{\mathrm{d}^{k}z^j}{\mathrm{d}z^{k}}P\left(X=j\right)\ &=\dfrac{\mathrm{d}^{k}z^k}{\mathrm{d}z^{k}}P\left(X=k\right)+\sum\limits_{j=k+1}^\infty a_jz^{j-k}\quad(a_j\in\mathbb{R})\ &=k,!,P\left(X=k\right)+\sum\limits_{j=k+1}^\infty a_jz^{j-k}\quad(a_j\in\mathbb{R}) \end{aligned} $$ 代入 $z=0$ 后求和项为 0，原式得证.

(2) 从右往左证. $$ \begin{aligned} \dfrac{P(-1)+P(1)}{2}&=\frac12\left(\sum\limits_{j=0}^\infty (-1)^jP\left(X=j\right)+\sum\limits_{j=0}^\infty (-1)^jP\left(X=j\right)\right)\ &=\frac12\left(\sum\limits_{j=0}^\infty \left(1+(-1)^j\right)P\left(X=j\right)\right)\ &=\frac12\left(\sum\limits_{j=0}^\infty ,2P\left(X=2j\right)\right)\ &=\sum\limits_{j=0}^\infty P\left(X=2j\right)\ &=P\lbrace X 是偶数\rbrace \end{aligned} $$

(3) 由二项分布，$P\left(X=j\right)=\displaystyle\binom{n}{j}p^j(1-p)^{n-j}$，于是 $$ P(z)=\sum\limits_{j=0}^n z^j\binom{n}{j}p^j(1-p)^{n-j}=\sum\limits_{j=0}^n \binom{n}{j}(zp)^j(1-p)^{n-j}=\left(zp+1-p\right)^n $$ 于是 $P(-1)=(1-2p)^n$、$P(1)=1$，代入 (2) 所得结论即得 $P\lbrace X 是偶数\rbrace ={\dfrac{1+(1-2p)^{n}}{2}}$

(4) 由 Poisson 分布，$P\left(X=j\right)=\dfrac{\lambda^j,{\mathrm e}^{-\lambda}}{j,!}$，于是 $$ P(z)=\sum\limits_{j=0}^\infty z^j\dfrac{\lambda^j,{\mathrm e}^{-\lambda}}{j,!}={\mathrm e}^{z\lambda-\lambda}\sum\limits_{j=0}^\infty\dfrac{(z\lambda)^j,{\mathrm e}^{-z\lambda}}{j,!}={\mathrm e}^{z\lambda-\lambda} $$ 于是 $P(-1)={\mathrm e}^{-2\lambda}$、$P(1)=1$，代入 (2) 所得结论即得 $P\lbrace X 是偶数\rbrace ={\dfrac{1+{\mathrm e}^{-2\lambda}}{2}}$

(5) 由几何分布，$P\left(X=j\right)=\begin{cases}(1-p)^{j-1}p,,j>0\0\quad\quad\quad\quad,,,j=0\end{cases}$，于是 $$ P(z)=\sum\limits_{j=1}^\infty z^j(1-p)^{j-1}p=\dfrac{p}{1-p}\sum\limits_{j=1}^\infty (z-zp)^j=\dfrac{p(z-zp)}{(1-p)(1-z+zp)}=\dfrac{zp}{1-z+zp} $$ 于是 $P(-1)=\dfrac{-p}{2-p}$、$P(1)=\dfrac{p}{p}=1$，代入 (2) 所得结论即得 $P\left{X是偶数\right}=\dfrac{2-p-p}{2(2-p)}=\dfrac{1-p}{2-p}{}$

(6) 由负二项分布，$P\left(X=j\right)=\displaystyle\binom{j-1}{r-1}p^r(1-p)^{j-r},,j\geq r$，于是 $$ \begin{aligned} P(z)&=\sum\limits_{j=r}^\infty z^j\displaystyle\binom{j-1}{r-1}p^r(1-p)^{j-r}\ &=\left(\dfrac{zp}{1-z+zp}\right)^r\sum\limits_{j=r}^\infty\binom{j-1}{r-1}\left(1-z+zp\right)^r(z-zp)^{j-r}\ &=\left(\dfrac{zp}{1-z+zp}\right)^r \end{aligned} $$
于是 $P(-1)=\left(\dfrac{-p}{2-p}\right)^r$、$P(1)=\left(\dfrac{p}{p}\right)^r=1$，代入 (2) 所得结论即得 $P\lbrace X 是偶数\rbrace =\dfrac12\left[1+(-1)^r\left(\dfrac{p}{2-p}\right)^r\right]$

1.17

(1) 取条件于是否有 $X_n\leq x$. $$ P(X_{i,n}<x)=P(X_{i,n}<x\mid X_n\leq x)P(X_n\leq x)+P(X_{i,n}<x\mid X_n>x)P(X_n>x) $$ 对于“$n$ 个数中选第 $i$ 小值比 $x$ 小”这个事：

若 $X_n\leq x$，那么相当于剔除占位的 $X_n$、在余下的 $n-1$ 个数选第 $i-1$ 小值比 $x$ 小；
若 $X_n>x$，那么剔除这个很大的 $X_n$ 不影响第 $i$ 小的位置，相当于在余下的 $n-1$ 个数选第 $i$ 小值比 $x$ 小.

于是 $$ \begin{aligned} F_{i,n}(x)=P(X_{i,n}<x)&=P(X_{i-1,n-1}<x)P(X_n\leq x)+P(X_{i,n-1}<x)P(X_n>x)\ &=F_{i-1,n-1}(x)F(x)+F_{i,n-1}(x)\overline{F}(x) \end{aligned} $$

(2) 取条件于 $X_n$ 是否比第 $i$ 小值大（即 $X_n$ 插入增序列的位置在第 $i$ 名之后还是之前. 是否取等并不重要，因为连续型变量取等概率为0）. $$ P(X_{i,n-1}<x)=P(X_{i,n-1}<x\mid X_n>X_{i,n})P(X_n>X_{i,n})+P(X_{i,n-1}<x\mid X_n\leq X_{i,n})P(X_n\leq X_{i,n}) $$ 对于“$n-1$ 个数中选第 $i$ 小值比 $x$ 小”这个事：

若 $X_n$ 插在 $i$ 之后，则这个很大的 $X_n$ 不会影响第 $i$ 小元素的位置，因此 $P=P(X_{i,n}<x)$；
若 $X_n$ 插在 $i$ 之前，则第 $i$ 小值变为第 $i+1$ 小值，因此 $P=P(X_{i+1,n}<x)$.

由独立同分布，每个人有均等的机会成为第 $i$ 小，故 $P(X_n>X_{i,n})=\dfrac{n-i}{n}$、$P(X_n\leq X_{i,n})=\dfrac{i}{n}$. 于是 $$ \begin{aligned} F_{i,n-1}(x)=P(X_{i,n-1}<x)&=P(X_{i,n}<x)\dfrac{n-i}{n}+P(X_{i+1,n}<x)\dfrac{i}{n}\ &=F_{i,n}(x)\dfrac{n-i}{n}+F_{i+1,n}(x)\dfrac in \end{aligned} $$

1.20

$x<1$ 时填不下任何一个区间，显然有 $N(x)=0\Rightarrow E(N(x))=0$.

$x>1$ 时. 只有第一次是没有空间限制的、且其位置分布已知，故取条件于 $I_1$ 左端点的位置 $y$. 填入 $I_1$ 后，将区间分成两个子区间，左侧长度 $y$、右侧长度 $x-(y+1)$，于是原问题分解为两个子问题 $$ E(N(x)\mid Y=y)=E(1+N(y)+N(x-y-1))=1+E(N(y))+E(N(x-y-1)) $$ 于是 $$ \begin{aligned} E(N(x))&=E\big[E(N(x)\mid Y)\big]=\displaystyle\int_0^{x-1}\big[1+E(N(y))+E(N(x-y-1))\big]f(x){\mathrm d}y\ &=\dfrac{1}{x-1}\displaystyle\int_0^{x-1}1+E(N(y))+E(N(x-y-1)), {\mathrm d}y\ M(x)&=\dfrac{x-1}{x-1}+\dfrac{1}{x-1}\displaystyle\int_0^{x-1}M(y),{\mathrm d}y+\dfrac{1}{x-1}\displaystyle\int_0^{x-1}M(x-y-1), {\mathrm d}y\ &=1+\dfrac{1}{x-1}\displaystyle\int_0^{x-1}M(y),{\mathrm d}y+\dfrac{1}{x-1}\displaystyle\int_0^{x-1}M(t),{\mathrm d}t\quad(令,t=x-y-1)\ &=1+\dfrac{2}{x-1}\displaystyle\int_0^{x-1}M(y),{\mathrm d}y \end{aligned} $$

1.22

$$ \begin{aligned} \text{RHS}&=E\big[E[\left(X-E(X\mid Y)\right)^2\mid Y],\big]+\mathrm{Var}(E[X\mid Y])\ &=E\big[E[X^2\mid Y]-E[,2XE(X\mid Y)\mid Y]+E[E^2(X\mid Y)\mid Y]\big]+E\big[E^2(X\mid Y)\big]-E^2\big[E[X\mid Y]\big]\ &=E\big[E[X^2\mid Y]\big]-E\big[E[,2XE(X\mid Y)\mid Y]\big]+E\big[E[E^2(X\mid Y)\mid Y]\big]+同上-同上\ &=E[X^2]-E\big[2E(X\mid Y)E[X\mid Y]\big]+E[E^2(X\mid Y)\mid Y]+同上-同上\ &=E[X^2]-2E\big[E^2(X\mid Y)\big]+E\big[E^2(X\mid Y)\big]+E\big[E^2(X\mid Y)\big]-E^2[X]\ &=E[X^2]-E^2[X]\ &=\mathrm{Var}(X) \end{aligned} $$

使用此公式计算例1.5B的方差. $$ \left.\begin{aligned} \mathrm{Var}(X\mid Y=1)&=0\ \mathrm{Var}(X\mid Y=2)&=\mathrm{Var}(X)\ \mathrm{Var}(X\mid Y=3)&=\mathrm{Var}(X)\ \end{aligned}\right} \Rightarrow E\big[\mathrm{Var}(X\mid Y)\big]=\dfrac23\mathrm{Var}(X) $$ $$ \left. \begin{aligned} E(X\mid Y=1)&=2\ E(X\mid Y=2)&=3+E(X)\ E(X\mid Y=3)&=5+E(X)\ \end{aligned} \right} \Rightarrow\mathrm{Var}(E[X\mid Y])=\dfrac{1}{9}\big(2E^2(X)+8E(X)+14\big) $$ 代入 $E(X)=M'(0)=10$，得 $\mathrm{Var}(E[X\mid Y])=\dfrac{294}{9}$，于是 $\mathrm{Var}(X)=\dfrac23\mathrm{Var}(X)+\dfrac{294}{9}$，解得 $$ \mathrm{Var}(X)=\dfrac{294}{3}=98 $$

验证：$E(X^2)=M''(0)=198$，$\mathrm{Var}(X)=E(X^2)-E^2(X)=198-10^2=98$.

1.29

$X_i$ 的矩母函数 $\psi_i(t)=\dfrac{\lambda}{\lambda-t}$. 则 $\sum\limits X_i$ 的矩母函数 $$ \begin{aligned} \psi_s(t)=E({\mathrm e}^{t\sum\limits X_i})&=E({\mathrm e}^{tX_1}\cdot{\mathrm e}^{tX_2}\cdots{\mathrm e}^{tX_n})\ &=E({\mathrm e}^{tX_1})\cdot E({\mathrm e}^{tX_2})\cdots E({\mathrm e}^{tX_n})\ &=\psi_1(t)\psi_2(t)\cdots\psi_n(t)\ &=\left(\dfrac{\lambda}{\lambda-t}\right)^n\ \end{aligned} $$ 题示密度函数对应的矩母函数为 $$ \begin{aligned} \displaystyle\int_0^{+\infty}{\mathrm e}^{tx}f(x),{\mathrm d}x&=\dfrac{\lambda^n}{(n-1)!}\displaystyle\int_0^{+\infty}{\mathrm e}^{(t-\lambda)x}x^{n-1},{\mathrm d}x\ &=\dfrac{\lambda^n}{(n-1)!}\displaystyle\int_0^{+\infty}\dfrac{1}{\lambda-t}{\mathrm e}^{(t-\lambda)x}(n-1)x^{n-2},{\mathrm d}x\ &=\dfrac{\lambda^n}{(n-1)!}\dfrac{n-1}{\lambda-t}\displaystyle\int_0^{+\infty}\dfrac{1}{\lambda-t}{\mathrm e}^{(t-\lambda)x}(n-2)x^{n-3},{\mathrm d}x\ &=\cdots \ &=\dfrac{\lambda^n}{(n-1)!}\dfrac{(n-1)!}{(\lambda-t)^{n-1}}\displaystyle\int_0^{+\infty}{\mathrm e}^{(t-\lambda)x},{\mathrm d}x\ &=\left(\dfrac{\lambda}{\lambda-t}\right)^n \end{aligned} $$ 由矩母函数唯一性即得证.

1.34

$$ \begin{aligned} \text{LHS}&=\dfrac{P(X_1=t,,X_2>t)}{P(\min(X_1,X_2)=t)}\ &=\dfrac{P(X_1=t)\cdot P(X_2>t)}{P(X_1=t)P(X_2>t)+P(X_2=t)P(X_1>t)}\ &=\dfrac{f_1(t)\mathrm{d}t\cdot\overline{F_2}(t)}{f_1(t)\mathrm{d}t\cdot\overline{F_2}(t)+f_2(t)\mathrm{d}t\cdot\overline{F_1}(t)}\ &=\dfrac{f_1(t)/\overline{F_1}(t)}{f_1(t)/\overline{F_1}(t)+f_2(t)/\overline{F_2}(t)}\ &=\dfrac{\lambda_1(t)}{\lambda_1(t)+\lambda_2(t)} \end{aligned} $$

1.35

(1) $$ \begin{aligned} E(h(X))&=\displaystyle\int_{-\infty}^{+infty}h(x)f(x),{\rm d}x\ &=\displaystyle\int_{-\infty}^{+\infty}h(x)M(t)f_t(x){\rm e}^{-tx},{\rm d}x\ &=M(t)\displaystyle\int_{-\infty}^{+\infty}{\rm e}^{-tx}h(x)f_t(x),{\rm d}x \end{aligned} $$ 而 $E({\rm e}^{-tX_t}h(X_t))=\displaystyle\int_{-\infty}^{+\infty}{\rm e}^{-tx}h(x)f_t(x),{\rm d}x$，代入即得证.

(2) $$ \begin{aligned} P(X_t>a)&=\displaystyle\int_a^{+\infty}\dfrac{ {\rm e}^{tx}f(x)}{M(t)},{\rm d}x\ {\rm e}^{-ta}M(t)P(X_t>a)&=\displaystyle\int_a^{+\infty}{\rm e}^{t(x-a)}f(x),{\rm d}x\ &\geqslant\displaystyle\int_a^{+\infty}f(x),{\rm d}x\quad(因为,t>0, x>a\Rightarrow{\rm e}^{t(x-a)}>1)\ &=P(X>a) \end{aligned} $$

(3) 令 $g(t)=M(t){\rm e}^{-ta}$，原命题即证 $\min g(t)$ 在 $t=t^\star$ 时取得.
$$ \begin{aligned} g'(t)&=-aM(t){\rm e}^{-ta}+{\rm e}^{-ta}M'(t)\ &=-aM(t){\rm e}^{-ta}+{\rm e}^{-ta}\displaystyle\int_{-\infty}^{+\infty}x {\rm e}^{tx}f(x),{\rm d}x\ &={\rm e}^{-ta}\left(-aM(t)+M(t)\displaystyle\int_{-\infty}^{+\infty}\dfrac{x{\rm e}^{tx}f(x)}{M(t)},{\rm d}x\right)\ &=M(t){\rm e}^{-ta}\big(E(X_t)-a\big) \end{aligned} $$ 观察 $X_t$ 的密度函数，分母是分子对 $x$ 的积分，于是 $E(X_t)$ 随 $t$ 单增、$M(t){\rm e}^{-ta}>0$，故 $g(t)$ 先减后增，在 $E(X_t)=a$ 时取得最小值. 而 $E(X_{t^\star })=a$，于是此时 $t=t^\star$，原命题得证.

1.37

对某个固定的 $k$，由习题1.6.1，$P(,k,是峰值)=P(X_{k-1}<X_k>X_{k+1})=\dfrac13$.

令 $I_i=\begin{cases}1,\ i,时刻出现峰值 \ 0,\ i,时刻不是峰值\end{cases}$，再假设共有 $n$ 个这样的随机变量. 记 $N_n=\sum_1^nI_i$，即峰值个数.

若 $I_1,\cdots,I_n$ 独立，则由 Chebyshev 大数定律，$\dfrac{N_n}{n}$ 以概率1地收敛到 $E[I_i]=P(,i,是峰值)=\dfrac13$，即峰值出现的时间比例等于 $\dfrac13$. 但此处它们并不独立，因为显然当 $k$ 为峰值时，$k+1$、$k-1$一定不为峰值.

但是 $I_1,I_4,I_7,\cdots$ 是独立的，可使用 Chebyshev 大数定律，即 $\dfrac{I_1+I_4+\cdots+I_{3n-2}}{n}$ 依概率收敛到 $\dfrac13$，即 $$ P\left(\lim\limits_{n\to\infty}\dfrac{I_1+I_4+\cdots+I_{3n-2}}{n}=1/3\right)=1 $$

同理，$I_2,I_5,I_8,\cdots$、$I_3,I_6,I_9,\cdots$ 是独立的，即 $$ \begin{aligned} P\left(\lim\limits_{n\to\infty}\dfrac{I_2+I_5+\cdots+I_{3n-1}}{n}=1/3\right)&=1\ P\left(\lim\limits_{n\to\infty}\dfrac{I_3+I_6+\cdots+I_{3n}}{n}=1/3\right)&=1 \end{aligned} $$

三式相加即得 $P\left(\lim\limits_{n\to\infty}\dfrac{I_1+I_2+\cdots+I_{n}}{n}=1/3\right)=1$，即峰值出现的时间比例依概率收敛到 $1/3$.

1.39

考虑质点从 $k$ 出发，到达 $n$ 的步数之期望 $E(k)$. 显然 $E(n)=0$. 欲求 $E(0)$.

对于 $0$，它下一步只能移动到 $1$，于是 $E(0)=1+E(1)$；
对于 $1\leqslant k\leqslant n-1$，它有 1/2 概率移动到其左侧、1/2概率移动到其右侧，然后步数加一，即 $$ E(k)=\dfrac12\big(E(k-1)+1\big)+\dfrac12\big(E(k+1)+1\big)=\dfrac12E(k-1)+\dfrac12E(k+1)+1 $$

配凑前后项. $$ \begin{aligned} \dfrac12\big(E(k)-E(k-1)\big)&=\dfrac12\big(E(k+1)-E(k)\big)+1\ \big(E(k)-E(k-1)\big)&=\big(E(k+1)-E(k)\big)+2 \end{aligned} $$ 即 $E(k)-E(k-1)$ 为公差为 $-2$ 的等差数列，故设 $E(k)-E(k-1)=-2k+a$. 由 $E(1)-E(0)=-1=-2\times1+a$ 得 $a=1$. 取 $k=1,2,\cdots,n$ 累加上述递推式得 $$ E(n)-E(0)=-2\cdot\dfrac{(1+n)n}{2}+na=-n-n^2+n=-n^2 $$ 于是 $E(0)=E(n)+n^2=n^2$.

1.41

记由 $m$ 个顶点组成的射线为 $m$ 线，其上的叶子为点 $A$；由 $n$ 个顶点组成的射线为 $n$ 线，其上的叶子为点 $B_i\ (1\leqslant i\leqslant r-1)$

(1) 记事件“在访问 $A$ 前访问 $B$ 并返回 0”为事件 $S$，则 $P_2=P(S)$ $$ \begin{aligned} P(S\mid 先访问m线)&=\left(1-\dfrac1m\right)P(S)\ P(S\mid 先访问n线)&=\dfrac1n+\left(1-\dfrac1n\right)P(S) \end{aligned} $$ 于是 $$ \begin{aligned} P(S)&=\dfrac12\left(\left(1-\dfrac1m\right)P(S)+\dfrac1n+\left(1-\dfrac1n\right)P(S)\right)\ 2P(S)&=P(S)-\left(\dfrac1m+\dfrac1n\right)P(S)+\dfrac1n+P(S)\ P(S)&=\dfrac{1}{n\left(1/m+1/n\right)}=\dfrac{m}{n+m} \end{aligned} $$ 也即 $P_2=\dfrac{m}{n+m}$.

(2) 记事件“在访问 $A$ 前访问完所有 $B_i\ (1\leqslant i\leqslant r-1)$ 并返回 0”为事件 $S_r$，则 $P_{r}=P(S_r)$

若先访问 $m$ 线，则和上述情况一致，$P(S_r\mid 先访问m线)=\left(1-\dfrac1m\right)P(S_r)$；
若先访问 $r-1$ 条 $n$ 线之一，记这条线为 $n_0$ 线
- 若在返回 0 之前已经走到了 $n_0$ 线的叶子，那么下一步就是“在访问 $A$ 前访问完 $B_i\ (1\leqslant i\leqslant r-2)$ 并返回 0”，概率为 $\dfrac1nP_{r-1}$；
- 若在返回 0 时没走到 $n_0$ 线的叶子，那么相等于没有执行任何操作、回到起始情形，概率为 $\left(1-\dfrac1n\right)P(S_r)$
- 于是 $P(S_r\mid 先访问n线)=\dfrac1nP_{r-1}+\left(1-\dfrac1n\right)P(S_r)$

于是 $$ \begin{aligned} P(S_r)&=\dfrac1r\left(\left(1-\dfrac1m\right)P(S_r)\right)+\dfrac{r-1}{r}\left(\dfrac1nP_{r-1}+\left(1-\dfrac1n\right)P(S_r)\right)\ rP(S_r)&=P(S_r)-\left(\dfrac1m+\dfrac{r-1}{n}\right)P(S_r)+\dfrac{r-1}{n}P_{r-1}+(r-1)P(S_r)\ P(S_r)&=\dfrac{(r-1)P_{r-1} }{n\big(1/m+(r-1)/n\big)}=\dfrac{m(r-1)P_{r-1} }{n+m(r-1)} \end{aligned} $$ 也即 $P_r=\dfrac{m(r-1)P_{r-1} }{n+m(r-1)}$.

握紧你的锄头——黄执中

Mon, 20 Jan 2025 00:00:00 GMT

2025新国辩哲理辩当今时代，我们更需要意义的解构/建构

我小时候听人说，锄头是农夫最好的朋友。我以前曾经困惑过，我小时候觉得农夫最好的朋友不应该是他种出来的那些农作物吗？怎么锄头才是好朋友呢？后来我才知道，因为只有当锄头松开了坚硬的地面，所有的生长才会成为可能。甚至有些时候你有心栽花花不发，无心插柳柳成荫，但前提是要先松开大地。就像“事实胜于雄辩”，我们刚才对它一个小小的拆解，是我今天送给所有辩论圈的一点小小的礼物。我把这一块地给锄松了之后，你们以后会往这里头种下什么样的种子、会长出什么样的作物，我不知道，灵芝或荔枝都可以。可是只有先松开了，成长才会成为可能。而在座的各位，在座的各位，我唯一要跟你们说的一句话就是，握紧你的锄头。在座的各位，还愿意看辩论赛的人、还愿意去打辩论的人、还愿意把辩论当回事的人，握紧你们的锄头，你们是少数拥有锄头的人，少数还在意锄头价值的人。

千万要小心那些告诉你锄头是负担的人；
千万要小心那些告诉你锄头是帮凶的人；
千万要小心那些叫你放下锄头的人。
小心那些面色凝重的告诉你说，锄头只会带来毁坏的人；
小心那些试图去诱惑你，拿着某颗甜美的果实，试图换走你手中锄头的人；
小心那些试图宣称，我们所有该种的作物都已经种出来了，所以我们再也不需要锄头的人。

无论三年后、五年后、事过境迁后，你再看到这场比赛，记住，握紧你的锄头，握紧你的锄头。对方要栽种的事物什么时候会出现我不知道，可是我告诉你：所有握锄头的人，将会亲自为他开辟前路！

大学物理 - 狭义相对论

Sun, 05 Jan 2025 00:00:00 GMT

import { Aside } from 'astro-pure/user'

看起来很抽象很难。但是，如果只是想把考试题做对，只需要知道1 个事实、2 个公式、3 个模型。

1 钟慢与尺缩

只给结论和理解方式。推导很简单，这里不写了，任何一本近代物理课本中都应该会有。

这里我忽略掉了固有时和运动时的概念，事实上这种理解是错误的。但我这里不提这个事，是因为容易把自己绕进去。不影响做题。

同样的，这里其实也有一个固有长度和运动长度的概念，同样不提这个事，不影响做题。

2 同时性的相对性

“光速不变”在我这里并不算一个“事实”。因为光知道一个光速不变，对做题没什么帮助。

同时性的相对性主要包括两个事情。

同一个参考系内可以定义同步钟，只有同一参考系的同时才是真正意义的同时。我们在坐标的每一个刻度处都放一个钟，而且全部调成同步，称为一列同步钟。例如地面系，它是一个参考系，在这个参考系中，我们定义了“北京时间”。将全国的钟都按照北京时间调准，那么当授时中心的钟指向 11:45:14 的这一刻，全国的钟都会指向 11:45:14 的这一刻；一个火箭于北京时间 11:45:14 这一刻在海南发射，一列火车于北京时间 11:45:14 这一刻在上海发车，这两个事件在地面系看来，就是同时发生的。这个同时是真正的同时，和一般认知是一致的。
观察相对于我运动的参考系中的同步钟，运动前方的钟滞后，运动后方的钟超前，简称“前滞后超”。也即坐标系相对于我运动起来之后，我看到的同步钟不再同步。怎么个不同步法呢，前滞后超。
例如，飞机从上海飞往海南，那么从飞机参考系来看，地面系从海南往上海运动，因此上海是运动前方、海南是运动后方，于是上海的钟滞后了、海南的钟超前了。也就是说，虽然两个事件在地面系上同时发生，但是在飞机的视角看来，“海南火箭发射”先发生、“上海火车发车”后发生。

同时性的相对性，说的就是这个事情，也即我的同时和你的同时是不一样的。如何直观理解这个事：

一列长 $l$ 的火车以速度 $u$ 往前动。在火车中点同时向车头尾各发送一个光子，这样在火车参考系下，就构造出了“光子到达车头 (记为事件 H, head)”和“光子到达车尾 (记为事件 T, tail)”两件同时发生的事件。

但是在地面参考系的我看来，向车头发送的光子与车头同向运动、向车尾发送的光子与车尾相向运动。由于光速不变，事件 H 发生所需的时间就长了一些、事件 T 发生所需的时间就短了一些。这就是“前滞后超”的原因。

那么具体相差了多少时间呢：首先，由于尺缩，从地面系看火车长度为 $l'=l \cdot \sqrt{1-u^2/c^2}$，于是在我地面系看来，两件事发生的时间分别为：

对于往车头发送的光子有 $l'/2=ct_H-ut_H \Rightarrow t_H=\dfrac{l'/2}{c-u}$
对于往车尾发送的光子有 $l'/2=ct_T+ut_T \Rightarrow t_T=\dfrac{l'/2}{c+u}$

因此在我看来，这两个事件时间差为 $t_H-t_T=\dfrac{l'u}{c^2-u^2}=\dfrac{lu\cdot \sqrt{1-u^2/c^2}}{c^2-u^2}=\dfrac{lu/c^2}{\sqrt{1-u^2/c^2}}$。

这两个事件在你那里是同时发生的，但由于两件事间隔了 $l$ 长度，在我这里产生了 $\dfrac{lu/c^2}{\sqrt{1-u^2/c^2}}$ 的时间差，也即你那里 $lu/c^2$ 的时间差。这就是同时性的相对性。

3 三个模型

3.1 飞翔米尺问题

答： $l\cdot\sqrt{1-u^2/c^2}$。我都不好意思管这玩意叫一个模型，因为这只不过是把尺缩重新说了一遍。

3.2 火车刻刀问题

一句话：同时发生的事件，事件之间的空间间隔就是运动长度

3.3 追光问题

刚才提到的问题，都是两个坐标系贴在一起相对滑动、问坐标重合处之间的关系。而追光问题，则要考虑光在两个参考系之间传播需要的时间。实际上就是反映同时性的相对性的题。

飞船以速度 $u=0.6c$ 飞离地球，它发射一个无线电信号，经过地球的反射，$40\rm{,s}$ 后信号回到飞船，求飞船发射信号、地球反射信号、飞船接收信号的时候，分别在地球系和飞船系测量，飞船和地球的距离是多少？

一颗星以 $0.6c$ 的速度远离地球，地球上测得星球的闪光周期为 $5\rm{,s}$，求星球实际的闪光周期

4 Lorentz 变换

做题的时候，全部想象成刚才的三个模型来做题，不建议背公式。

5 速度变换式

6 相对论质能关系

看一个动起来的东西质量会变大。$m=\dfrac{m_0}{\sqrt{1-u^2/c^2}}$，其中 $m_0$ 称为静止质量，$m$ 称为运动质量
动量公式 $p=mu$，$m$ 要用运动质量代进去
一个有质量的物体本身就具有能量，$E=mc^2$，这个式子是与参考系无关的。我们说能量守恒，说的是 $E=mc^2$ 守恒
- 当这个东西与我没有相对运动时，$E_0=m_0c^2$
- 当这个东西与我有相对运动时，它不仅有因质量带来得能量 $E_0=m_0c^2$，还有一个动能，所以 $E=mc^2+E_k$，即 $E_k=mc^2-m_0c^2$。这个动能不是传统意义上只和速度有关的东西，因为它动起来导致的质量增加也算在里面了，所以这个 $E_k$ 叫做相对论动能
能量与动量的关系：$E$ 做斜边，$m_0c^2$ 与 $pc$ 做直角边，满足勾股：$E^2=\left(m_0c^2\right)^2+\left(pc\right)^2$
动能与动量的关系：$E_k^2+2m_0c^2E_k=p^2c^2$
一些常见的数据要记的
- $1 \text{ eV}=1.6\times10^{-19}\text{ J}$
- 电子的静止质量 $9.1\times10^{-31}\text{ kg}$
- 电子的静止能量 $0.51\text{ MeV}$

物理实验之不确定度

Thu, 14 Mar 2024 00:00:00 GMT

随机变量与误差

绝对误差 $\Delta x=x-x_0$，你以为的（测量值）减去真实值
等精度测量和不等精度测量，这里讨论的都是等精度
相对误差 $N=\dfrac{\Delta x}{|x_0|}{}$，绝对误差除以真实值
真实值一般是不可能得到的，所以取约定真值（理论值/公认值），或者取多次测量的平均值 $\bar x$

系统误差：大小、正负有某种规律
随机误差
存在多种分布形式，一般是正态分布，它是一种连续分布
连续型随机变量的期望定义为 $E(x)=\displaystyle\int_{-\infty}^{+\infty} xf(x) {\rm d}x$
连续型随机变量的方差定义为 $D(x)=\displaystyle\int_{-\infty}^{+\infty} [x-E(x)]^2f(x) {\rm d}x$
正态分布密度函数 $f(x)=\dfrac{1}{\sigma\sqrt{2\pi}}e^{\tfrac{-(x-\mu)^2}{2\sigma^2}}{}$
$\mu$ 为期望（平均值），$\sigma$ 为标准差
平均值附近的区间 $(\mu-k\sigma,\mu+k\sigma)$ 称为置信区间，其中 $k$ 为置信因子，这个区间上的概率称为置信概率；正态分布中 $k=3$ 的置信概率达到了 99.73%，可以认为这个区间以外的数据异常（3σ原则）

有限（$n$）次测量
样本平均值 $\bar x=\dfrac 1n \sum\limits^n x_i$
样本方差 $\hat{S_n}^2=\dfrac {1}{n-1} \sum\limits^n (x_i-\bar x)^2$
理解上，这个式子是“Σ 频率×数据”；记真实的方差为 $\sigma^2$，真实的平均值为 $\mu$
为什么是 $n-1$ 而不是 $n$：这里做了详细推导。结论：除以 $n-1$ 的值是“无偏估计”，也就是说这个值将回归到真实的方差 $\sigma^2$；而如果除以 $n$，得到的结果是 $\dfrac{n-1}{n}\sigma^2$，这个数只有在 $n \to \infty$ 时才为真实的方差。理解上：给出的这个公式计算方差之前已经定好了样本平均值，也就是已经选定了 $n$ 个数，这使得只要确定 $n-1$ 个数，最后一个数就已经确定了；而如果将上面的公式中 $\bar x$ 改为真实的平均值 $\mu$，那么就要除以 $n$ 而不是 $n-1$，因为真实平均值并没有限定这 $n$ 个数，选定了 $n-1$ 个数之后，最后一个数无法确定。还有一种更傻瓜式的解读，样本的方差一般是要比总体的方差要低一些，所以要除以一个较小的数使得总体方差稍微大一些。

任意一次测量的实验标准偏差 ${S_x}=\sqrt{\dfrac {\sum\limits^n (x_i-\bar x)^2}{n-1}}{}$（贝塞尔公式）
平均值的实验标准偏差 $S_{\bar x}=\dfrac{S_x}{\sqrt n}{}$

三个“精度”：

精密度 Precision 指数据比较集中
准确度 Correctness 指数据平均值离真实值比较近（数据均匀分布在真实值周边）
精确度 Accuracy 指精密度和准确度都很好

不确定度

A 类标准不确定度：用统计方法计算得出的不确定度
B 类标准不确定度：用其他方法计算得出的不确定度

对某一被测的量，做了 $n$ 次等精度独立测量，则：

任意一次测量的 A 类标准不确定度 $u_A(x)=S_x=\sqrt{\dfrac {\sum\limits^n (x_i-\bar x)^2}{n-1}}{}$
平均值的 A 类标准不确定度 $u_A(\bar x)=S_{\bar x}=\sqrt{\dfrac{\sum\limits^n (x_i-\bar x)^2}{n(n-1)}}{}$
记测量仪器本身的允许误差极限为 $\Delta_{\rm ins}{}$，置信因子为 $k$，则 B 类标准不确定度 $u_B=\dfrac{\Delta_{\rm ins}}{k}{}$。其中
- 当测量误差服从均匀分布（如电子计数器的量化、仪器刻度盘示值的分辨力、平衡指示仪的调零、度盘与齿轮的空程差、数据切尾等）、置信概率取 100% 时，经计算可知 $k=\sqrt 3$
- $\Delta_{\rm ins}{}$ 可以近似等于最小分度值的一半

合成标准不确定度 $u_C=\sqrt{u_A^2+u_B^2}{}$，若有若干组不同的 AB 类不确定度，则各自平方全部相加再开根号

测量结果的表示

对被测量 X，我们表示为 $X=\bar x(u_C)$（若只有一组值则 $\bar x=x$），例如 $L=114.51(0.05) \rm mm$，其中 114.51mm 是最佳估计值（最佳估计值带符号）

若是间接测量量，例如待测量 $\Phi$ 是 $N$ 个相互独立的直接测量量的函数 $\Phi=F(x_1,\cdots,x_n)$，那么有标准不确定度传递公式 $u_C(\Phi)=\sqrt{\sum\limits^N_{i=1}(\dfrac{\partial\Phi}{\partial x_i})^2u_C^2(x_i)}{}$，最后表示为 $\Phi=\phi(u_C(\Phi))$

标准相对不确定度 $E=\dfrac{u_C}x$，其中 x 是最佳估计值，是一个无量纲数，一般表示成百分数

若是间接测量量，则由上面公式有 $E=\dfrac{u_C(\Phi)}{\Phi}=\sqrt{\sum\limits^N_{i=1}(\dfrac{\partial ln\Phi}{\partial x_i})^2u_C^2(x_i)}{}$

有效数字

有效数字与单位无关，114.5mm=11.45cm=0.1145m，始终是 4 位有效数字

修约：四舍六入五凑偶。

≤4 ，直接舍去
≥6 ，进一
若为 5
- 当 5 后有有效数字时，进一
- 当 5 后无有效数字时
  - 5 前为奇数时，进一凑成偶数
  - 5 前为偶数时，直接舍去

举例：保留两位小数

9.8249≈9.82
9.82671≈9.83
9.8350≈9.84
9.83501≈9.84
9.8250≈9.82
9.82501≈9.83

有效数字之间的运算

准确值与准确值运算得准确值，可疑值与可疑值运算得可疑值
准确值与可疑值运算得可疑值，进位数字视为准确值
加减保留小数点后位数最少的
乘除保留有效数字最低的
乘方开方保留精度与底数精度相同
对数保留精度比真数精度多一位（或者相同）

不确定度有效数字只能取 1-2 位，不确定度第一位个有效数字是 1 或 2 时，取两位；是 3 及以上时，取 1 位

数据处理

列表、作图法
逐差法（不是超级大邻差，那个只适用于计算含有 $\Delta s$ 的）
残差 $\hat e_i=y_i-\hat y_i$，唯一一个“真实的-你以为的”，其他的都是“你以为的-真实的”

相关系数 $r=\dfrac{\sum\limits(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum\limits(x_i-\bar x)^2}\sqrt{\sum\limits(y_i-\bar y)^2}}{}$
$r \in [-1,1]$，相关系数越靠近 1，越线性正相关；相关系数越靠近-1，越线性负相关

最小二乘法
$\hat y=\hat bx+\hat a$，其中
$\hat b=\dfrac{\sum\limits(x_i-\bar x)(y_i-\bar y)}{\sum\limits(x_i-\bar x)^2}{}$
$\hat a=\bar y-\hat b\bar x$

相关指数 $R^2=1-\dfrac{\sum\limits(y_i-\hat y)^2}{\sum\limits(y_i-\bar y)^2}{}$
相关指数越大，残差平方和越小，拟合效果越好；相关指数越小，残差平方和越大，拟合效果越差

八段锦

Thu, 30 May 2024 00:00:00 GMT

要点与起式

起式：左脚跨开，微蹲，掌心对腹部，抱球

调息：开吸合呼，起吸落呼，蓄吸发呼；鼻吸，口或鼻呼。一动一呼/吸，不动屏息，屏息不是故意，是自然停止；逆腹式呼吸，吸气收腹，呼气放松，起伏的是丹田

调心：

意想动作要领：把意念放在动作规格，方法要领和动作的路线上，适合正在学习动作的练习者
默念动作口诀：适合动作习练相对比较准确的习练者，把散乱的思绪放在动作上
意念身体部位：把意念放在做动作的过程中身体的感觉上（感觉最明显的部位，感知摩擦、撑压、拉伸、放松感觉）
意念呼吸（约等于调息）：阶段一，仅把意念放在呼吸上，适合动作自动化但刚刚将呼吸融入动作的练习者；阶段二，把意念放在呼吸和动作的配合上，让动作找呼吸，不要让呼吸赶动作
观想：想象

第一式：双手托天理三焦

意念动作要领：抱球插手，起身托掌，面前翻掌，抬头撑掌，前视顶腕，沉髋分掌，蹲腿按掌，腹前抱球

默念动作口诀：托，顶，落

意念身体部位：上升全程紧贴身体，下降时候松背松腰，缓慢抱于腹前，掌心向上

调息：插手上托吸气，前视顶腕屏息，下落呼气

观想：观想气，通过气打理三焦的每一个角落（膈肌以上上焦，膈肌到肚脐中焦，肚脐以下下焦）。手在哪，气就在哪里，前视顶腕时候，意想顶天立地感觉，下落时诱导出三焦打理完身体舒畅的感觉。

第二式：左右开弓似射雕

意念动作要领：开步搭腕，马步开弓，侧移分手，并步抱球

默念动作口诀：搭腕，开弓，分手，并步

意念身体部位：先左开后右开，哪脚出哪手在外。开弓、分手时候朝着开的方向看。身体立直，蹲下深一点。收回时脚往外收。抱球掌心向上。

调息：搭腕蓄力吸，开弓呼气，定式屏息，侧移吸气，并步呼气

观想：诱导出在拉弓过程中心胸开阔的感觉，加强心胸开阔后身心的放松。开步搭腕时想象手从小腹开始捧起一盆水，在胸口时想象为一股气按进胸腔，

第三式：调理脾胃须单举

意念动作要领：左臂上举，上撑下按，左臂下落，两手抱球。右臂上举，上撑下按，右臂下落，两手伏案。

默念动作口诀：举，落

意念身体部位：先左在上，后右在上。先稍微上升一点再分开。上撑下按时力点在掌根，身体不要歪。下面的手不要贴身体，也不要过远；上面的手不贴耳朵。这一整式结束时掌心向下，落在胯旁，指尖向前。意念身体部位这一部分，感受呼吸。

调息：上举吸气，屏息上撑下按，下落呼气。

观想：上撑下按时意想清气向上升到心肺，浊气向下沉到肠；下落时意想清泉从头到脚灌注

第四式：五劳七伤往后瞧

意念动作要领：起身探指，旋臂后瞧，沉髋回抹，微蹲伏按。起身探指，旋臂后瞧，沉髋回抹，微蹲抱球

默念动作口诀：起身，后瞧，转正

意念身体部位：手臂向上提升45°，不前后动。旋臂是用小指带动手臂，旋转要充分。颈椎平行转动，不能俯仰头。

调息：起身呼气，后瞧屏息，呼气转正

观想：起身弹指时想象顶天立地的感觉，四肢像树根一样扎在地上。沉髋想象将海洋球按入水中，但不要用力，慢慢按

第五式：摇头摆尾去心火

意念动作要领：开步上托，两掌下按，重心稍起，上体右倾，右转俯身，俯身左旋，转髋摇头，马步下坐。重心稍起，上体左倾，左转俯身，俯身右旋，转髋摇头，马步下坐。收脚坐起，屈膝下按。

默念动作口诀：起，倾，旋，转髋摇头，坐

意念身体部位：右脚迈出。两手从抱球开始上托到头上，都在第三式单举的位置。然后从两侧下放，搭在大腿上但不受力。身体先右倾、经前面旋转到左侧，然后摇头摆尾。随后，身体左倾、经前面时旋转到右侧，然后摇头摆尾。整个过程头要摇开，脖子不能松。然后手臂从两侧上举至与肩同宽，掌心相对，此时收回右脚。手下按，呈伏按桩。

调息：起身右倾吸气，左旋呼气，转髋摇头吸气，下坐呼气，另一侧同理

观想：按动作要领观想。摆尾时想象尾是笔，画出圆弧

第六式：两手攀足固肾腰

意念动作要领：直体举臂，掌心相对，胸前按章，腋下穿掌，直立按摩，前俯摩运，贴地伸掌，微蹲伏按

默念动作口诀：举，落，穿，摩，伸，举

意念身体部位：从伏按桩开始，朝前举起到头上，与肩同宽掌心相对。下按到胸的高度，不要耸肩，然后手心向上翻。从胸部往后穿出，向下摩运。至臀部时身体下俯，手贴着腿后侧向下摩运，到脚跟时顺着脚外侧移到前面，按在脚面上。前举时，用手带着身体起来，头不要动。最后伏按桩。

调息：上举吸气，下落呼气，穿掌吸气，摩运呼气，贴地屏息，上举吸气，伏按呼气

观想：直体时观想伸懒腰，体内舒畅；向下直到脚面，想象暖流由上至下，通畅膀胱经，贴地伸掌起来时候想象手是飞机沿脚背起飞；

第七式：攥拳怒目增气力

意念动作要领：马步抱拳，怒目冲拳，拧腰缠腕，握固回收，并步落手

默念动作口诀：冲，抓，收

意念身体部位：脚先左，全程马步，手也是先左。冲拳由腰间向前冲出，冲到与肩同高。身体中正。

调息：开步吸气，冲拳呼气，缠腕屏息，回收吸气

观想：冲拳时想象有个阻力阻碍出拳，穿透性强，力道逐渐增大。收回来时候想象手被往外拉

第八式：背后七颠百病消

意念动作要领：提顶抬踵，落踵震地。收式，旋臂外分，转掌敛气，合抱丹田，落掌还原

默念动作口诀：提，缓，颠

意念身体部位：脚后跟踮起，充分提高，保持身体中正，头向上顶，然后停一下，最后墩到地上。收式，两手手心向后，手臂张开，然后转掌，向前划过后两手重叠于腹，男右手在上，女左手在上

调息：抬踵吸气，顶住定式屏息，落踵呼气。收式，外分吸气，合抱呼气，落掌自然呼吸

观想：感觉有一股力量拉着百会穴，把气提到很高的位置，先优雅下落，后沉稳落地。

《如何阅读一本书》笔记

Thu, 09 May 2024 00:00:00 GMT

import { Aside } from 'astro-pure/user'

阅读的艺术

（原第一章）
阅读的目的：娱乐消遣、获得资讯、增进理解。

要把读书的主要目的当作是增进理解能力。要读刚好明白但并不了解的书、挑战既有的理解力（否则读者没有被启发），阅读的目的是把这种不平等的了解程度克服到一定程度之内。

阅读是一件主动的事，阅读越主动效果越好，读者对自己的要求越多获得就越多。阅读需要技巧，比喻：作者是投球手，读者是捕手。

阅读的艺术，是一个凭借头脑运作，不假任何外助（除了玩味一些字句），以一己之力来提升自我的过程。

阅读是跟着一位缺席的老师学习，本书就是要我们懂得如何让书本来教导我们。当你提出问题时，只有等你自己做了思考和分析之后，才能在书本上找到答案。如果追寻的是解释而不是陈述，就需要理解。

做有自我要求的读者

（原第五章）
主动阅读的核心：要提出问题，在阅读过程中必须尝试回答问题。事实上努力提出问题是任何超越基础阅读层次的核心。这四个问题就是后面分析阅读要达成的目标：

整体来说，这本书在谈什么？
作者在细部说了什么，怎么论述的？
这本书说的有道理吗，是全部有道理还是部分有道理？
这本书和我有什么关系？意义是什么？

如何让一本书真正属于自己：做笔记。笔记分为结构笔记、概念笔记、辨证笔记（讨论情境的笔记，通常是很多本书）书成为你的一部分 = 你成为书的一部分。做笔记的记号：

横线/圈，重要而有力量的句子/词
星号，慎用，只用来强调全书十来个最重要的声明。往往配合折角或者书签，代表回忆这本书最重要的部分
编号，标注连串的论述
页码，链接其他相似的表述，读者常用“Cf”标记表示比较或参照的意思
文字，用自己的话简化说明或者整理主要论点的发展顺序

书的前几页，盖藏书章表示财务所有权，记载读者的思想表示智力所有权。书的最后几页，作为个人索引页，将主要观点依序记下来。

习惯≠规则。阅读中有许多规则和技巧需要掌握。规则的多样化意味着要养成一个复杂的习惯，而不是多个习惯。

阅读与心智成长

（原第二十一章）
读完这本书，一定要用以前从没经历过的方式来努力阅读。必须要能够操纵超越自身能力的书，增进阅读技巧的书。99%+的书对增进阅读技巧毫无帮助，剩下的就是可以学习如何阅读、如何生活的书。

经过下面讲解的阅读方法之后，这本书就已经用不着再读，只要大概翻一翻就回忆起了。但是也有很难读得书，要反复读。也有书是每次重读都能获得成长，书和读者都有成长。

Chapter 2 阅读的层次

（原第二章）
“层次”表示高层次的阅读包含低层次的阅读，没有低层次的阅读就没法进入高层次的阅读。

基础阅读，就是拥有基本的阅读技巧，能理解文字、句子和文章的意思。这一点于非儿童而言，主要出现在读外语读物时。
检视阅读，就是在一定时间内抓住一本书的重点，它是一门系统化略读的艺术，要能回答出“这是一本什么书”、“这本书在谈什么”、“这本书架构如何”的问题。
分析阅读，是全盘、完整、优质的阅读，一直读到这本书成为读者自己。如果只是为了消遣或获得资讯，则没有必要使用分析阅读。
主题阅读，就是阅读很多本书，列举出这些书的相关处，提出一个主题。

Level 1 基础阅读

（原第三章）

学习阅读的四个阶段：

阅读准备阶段/幼稚园
认字与读简单的读物/一年级
字汇快速增长与功能性读写能力/四年级
精炼与增进前面几个阶段所学的技巧/九年级

高等教育与民主教育

Level 2 检视阅读

（原第四章）

检视阅读一：系统略读

目标是在几分钟到一个小时内，知道这本书讲了啥，决定这本书值不值得多花时间仔细读。这一阶段要读：

书名页和序言，将书本归为某一类
目录，概括掌握基本架构
索引，评估书本涵盖的议题
出版者介绍
如果上面的步骤表明这本书值得一读，则开始挑几个与主题相关的文章看，特别是开头和结尾
打开书，随便翻，读几段或者几页，特别是最后的两三页和后记，但是不要看太多

检视阅读二：粗浅阅读

即从头到尾读完，不要因为不理解的地方停下来查询或者思索（很快就会看到懂的地方了）。如果坚持了解每一页的意义才肯读下去，那一定读不了多少。

阅读速度

大多数人的阅读速度是比现在读的速度还要快。有的书没必要花那么多时间，而有的书是要读得相当慢才能理解。读同一本书时的速度也有不同，无关紧要的部分快一点，困难的部分慢一点。

未受过训练的读者在阅读一行字时会在5~6个地方逗留，只能看到几个单字的组合，甚至倒退回两行前。脑的阅读速度比眼睛的阅读速度快得多，可以通过手指引导的方式加快阅读速度。

检视阅读之后，要能够回答与本书有关的、稍微比简单难一点的问题的答案。检视阅读之后，对正式开始读一本书已经有了准备，不管这本书多难。

Level 3 分析阅读

3个阶段，共15个规则。不适用于阅读小说或诗集。

这里的阶段并不是“前后”，因为实际阅读的时候是读一遍就完成了所有三个阶段。

第一阶段：找出一本书在谈些什么

第一阶段是为了回答第一个问题：整本书在谈什么。能提供读者对一本书架构的认识。

规则一. 依照书本的种类与主题作分类

（原第六章）
要知道自己在读什么类型的书，越早知道越好，最好在读之前就知道。大类分成论说类和虚构小说类。

论说类又分为实用性和理论性，这是行与知的区别。技巧、手册、教导性论述都是实用性的书。经济行为的研究报告、数据分析研究则是理论性的而非实用的。讨论某件事的有效性是理论，讨论某件事的目的是实用。包含了规则、指导的书是实用性的书。实用性的书多用“应该”“好坏”“结果”“意义”，理论性的书多用“是”。

理论性作品下再分。

如果强调特殊事件，随着时代不同而演变，则是历史书
如果讨论的问题无关时代，则再分
- 如果超乎日常经验、用特殊经验的结果举证，则是科学书
- 如果是普通的日常经验、用人类共通性做例证，则是哲学书

规则二. 使用最简短的文字说明整本书在谈些什么

（原第七章）
使用一个单一的句子，或最多几句话（一小段文字）来叙述整本书的内容。不要满足于感觉上的认知，要说出来才算成功。

规则三. 将书中重要篇章列举出来，说明它们如何按照顺序组成一个整体的架构

（原第七章）
将主要部分按顺序与关联性列举出来。将全书的大纲列举出来，并将各个部分的大纲也列出来。找出一本书的架构是读者的责任，就像作者有责任设定架构一样。

读者的架构和纲要可以和作者不一样，可以有更精准和易于理解的其他诠释，甚至比原作还长。只要读者和作者有一个没有偏向完美，最后的纲要都会不一样。但是纲要不要延伸出这本书。

第二个规则要求注意书的整体性，第三个规则要求注意书的复杂性。这两个规则不仅适用于一本书，也适用于一本书中比较复杂的一部分。

规则四. 确定作者在问的问题，或者想要解决的问题

（原第七章）
读者有责任精确找出作者在这本书中讨论的问题，如果问题很复杂则还要说出问题的主次。一般是这么几种：

理论性问题
- 这件事存在吗？什么情况下存在？
- 什么样的事？特征是什么？这件事如何进行？
- 为什么会存在？发生的原因？目的是什么？造成的影响是什么？
- 不同事件的关联是什么？
实用性问题
- 哪些结果可以选择？采取什么手段才能获得某种结果？达到某个目的应该采取的行动？行动的顺序？
- 在上述条件下，什么是对的？怎样会更好？
- 在什么条件下，这样做比上述做法好？

第二阶段：诠释一本书的内容

第二阶段是为了回答第二个问题：作者详细说了什么。

规则五. 诠释作者的关键字，与他达成共识

（原第八章）
词义只在沟通的过程出现。除非读者与作者找出共通的词义，否则不可能把知识传递给另一方。因为词义是可供沟通的知识的基本要素，沟通之中如果还有未解决的模糊地带，就表示没有达成最好的沟通。

关键字即读的过程中产生困扰的字，或者不是日常中约定为意义明确的字，或者作者明着强调一些字（称为专门用语或特殊用语，一般会反复出现或者反复去解释）。科学作品往往比非科学作品好读，因为科学作者会很仔细地与读者达成共识，把论述说得很清楚，而文学作品中没有。

一个字可以有很多词义（Xa，Xb），这些意义要从上下文中已经了解的字句中推敲出来。一个词义也可以由不同字表达（Xa，Ya）。思想只会在词义中相遇，不会在字中相遇。

这里的“字”，可以是单字，也可以是一个独立单位的片语。片语相比单字，表意不会那么模糊。

规则六. 由最重要的句子中，抓住作者的重要主旨

（原第九章）

首先找到重要的句子：

主旨是声明知识或观点的陈述句。
就像字和词义，主旨可以由多个句子表达，也可以一个句子表达多个主旨。一本书中通常只有少数几句话是最最核心的关键句。
就像关键字，关键句就是读的时候难以理解的句子。关键句不是一个人感兴趣而慢慢读的句子，而是令人感到困扰而慢慢读的句子。

然后抓出主旨：

就像通过上下文确定词义，要借助前后相关的句子来了解这个句子。但是一个句子本身可能表达多个意思，这就需要自己写出主旨，并指出他们之间的相关性
检验自己是否懂得一个句子的主旨：用完全不同的话写出句意，或者举一个经验（或实验）证明。

规则七. 知道作者的论述是什么，从内容中找出相关的句子，再重新架构出来

（原第九章）
就像词义与文字、主旨与句子的关系。论述是在“段落”中体现的。注意这里“段落”可以是一句话也可以是好几段。突出的词义越多，突出的论述也越多。

步骤：找出书中说明重要论述的段落，从那段中挑出句子，整理出前后顺序的主旨以及其组成的论述。如果论述没有被表达出来就要自己架构出来。

论述的进一步说明

所有论述都包含声明，这些声明就是读者接受作者的观点的理由。
有两种论述
- 一个或多个事实→共通的概念：归纳法，用实验证实主张
- 一连串通则→更进一步的共通概念：演绎法，用推论证实主张
论述是有开端的。
- 作者的假设
- 能证实的或者有根据的事
- 不证自明的主旨。这里又分为有启发性的和没有启发性的。有启发性指我们不知道一个东西的绝对定义，只能通过关系来确定，例如“整体大于部分”，因为我们没法孤立地定义整体是什么、部分是什么；没有启发性指已经有约定的东西再用这个约定说一遍（废话重说），例如“祖父是父亲的父亲”，因为我们称父亲的父亲为祖父。

规则八. 确定作者已经解决了哪些问题，还有哪些是没解决的。再判断哪些是作者知道他没解决的问题

（原第九章）
检视这一阶段收集到的有关这本书的信息，提出一些更进一步的问题。指出作者是否解决了问题，有没有新问题出现

第三阶段：像是沟通知识一样地评论一本书

这个阶段是为了回答第三个问题：这本书说的有道理吗，是全部有道理还是部分有道理？

当读者读完一本书的时候，读者已经自我提升到与作者同样的水平了。
读者是最后一个说话的人，作者说完了该读者说。读者也必须说，能评论提出批评，才算真正完成了读书这件事。
受教育是一种主动的美德，自动自发运用独立判断力学习到东西。
前两个阶段是文法与逻辑，这个阶段要靠修辞的艺术。修辞就是要知道如何去说服对方。

A. 智慧礼节的一般原则
这一部分讲批评式阅读的条件，到这里读者应该能与作者辩论。

规则九. 除非你已经完成大纲架构，也能诠释整本书了，否则不要轻易批评

（原第十章）

在说出“我同意”“我不同意”“我暂缓评论”之前，要肯定地说“我了解了”。
注意暂缓评论也是一种评论，表示读者还没有被说服。
表示“懂了”的时候，最好要小心一点
如果只读懂了一部分，批评就要更小心
表示“不懂”，应当要确认是书的问题而不是自己不够努力
一本书有可能与作者的其他书有关，看了其他书才能完全理解

规则十. 不要争强好胜，非辩到底不可

（原第十章）
当不同意作者的观点时，要理性地表达自己的意见，不要无理地辩驳或争论。如果怀疑自己是错的就不要去争辩（即使作者不能即时为自己辩护）。要讲真理事实，要诚实，要做好同意作者观点的心理准备。

规则十一. 在说出评论之前，你要能证明自己区别得出真正的知识与个人观点的不同

（原第十章）
语言被情绪覆盖，是不完美的沟通媒介，但在理性程度之内，理解上的困难是可以克服的。只要排除误解、增加知识，就能解决争论。但人们往往只坚持最初自己的观点，不认为争议是排除误解、增加知识的教导与受教的过程。

若读者发现自己的观点与书中不合，就要确定是由于知识还是由于个人意见而引起的争议。要相信就知识而言的争议是可以解决的。

进一步地，要为自己的不同意见找到理论基础，这样这个议题才有机会被解决。

B. 批评观点的特别标准
理想化的辩论应该满足下面三个条件

注意辩论时带入的情绪，否则争论就流于情绪化而非说理
要把自己的前提或假设摊出来。好的辩论不会为了假设而争吵
尽量尝试不偏不倚，用同理心阅读一本书

规则十二. 证明作者的知识不足

（原第十一章）
要能说出作者所缺乏的知识，并且说明这些知识如何与这个问题相关，有了这些知识会如何下出一个不同的结论。

规则十三. 证明作者的知识错误

（原第十一章）
知识不足不太可能解决某个问题，知识错误引导出错误的结论和站不住脚的解答，这两个规则都是说作者的前提有缺陷。要说明事实是什么。当然如果这个缺点不影响作者最后的结论就没必要追究了。

规则十四. 证明作者不合逻辑

（原第十一章）
即推论荒谬，分为缺乏连贯和前后矛盾两种。这里主要指理论根据很好，但是导出的结论很差。好书的逻辑谬误一般不存在，或者藏得很深。

规则十五. 证明作者的分析与理由是不完整的

（原第十一章）
如果读懂了，且找不出证据来反驳前面三个规则提到的批评点，则有义务同意作者的所有观点，没有权利不同意作者，只能说“不喜欢”作者的结论。这时候讨论的是作者是否完成了他的计划，讨论作者的成就是否是有局限的（资料没有用全、含义关系缺漏、想法不够与众不同）。此时才可以对一本书暂缓评论。

总结

前三个问题：这本书谈什么，细节处论述了什么，是否有道理。这是由于沟通的复杂性而需要列提纲、沟通不透明不完美而需要诠释彼此的想法、错误和无知局限真实和知识而需要批评。至于第四个问题：这本书和我有什么关系、意义是什么，则关乎阅读的启发性。如果是为了追求知识而阅读，就要判断这些东西的意义，否则称不上有头脑的阅读。

Level x 辅助阅读

（原第十二章）
不存在绝对孤立的阅读，因为我们免不了用自己过去的经验或者读过的其他书来与书中的声明或结论作比较。

辅助阅读外在阅读（相较于读书籍本身的内在阅读），是借助其他书籍进行阅读的阅读方式。阅读中不建议过于依赖外在辅助，在寻求外力帮助之前最好自己一个人阅读，慢慢就发现越来越不需要外界助力了。在上述十五个规则下阅读之后仍然有不懂的地方，就要找外在帮助。

外在辅助的四个来源：

其他的书

读历史和哲学书的时候尤其需要阅读相关的其他书。读其他书有助于提供一个更大的脉络，以诠释正在阅读的书。要依照成书时间从早到晚的顺序读。也可以读一读作者读过的书。

导论与摘要

尽量少用，因为导读不一定都是对的，就算写对了也不一定完整。读书之前不要看导读，因为那样就隶属于做导读的人了。尽力读完一本书，还有问题在干扰的时候才用导读来解答问题。

摘要也少看。分析阅读的过程中就应该自己把摘要写出来了。别人的摘要起一个唤醒回忆的作用。但是主题阅读的时候，摘要很重要，用来确定是否要读这本书。

工具书

善用工具书

必须有一些想法，想要知道一些什么。
知道问的是哪一类问题，哪一类工具书回答这类问题
知道工具书是怎么组织的
必须知道想找的是什么，哪种工具书能找到这样的东西

工具书中主要的两类：字典和百科全书。他们都是教育与知识的工具

使用字典
字典是关于字的，不是关于事的。因此不可能查出问题的结论。好的字典能提供拼字和发音的关系、字的用法、字的意义、字的历史演变。再次强调，不要一直查字典，会打乱读书的思路，除非这个字的意思与主旨有关。

使用百科全书
通读百科全书是没有意义的，会有被封为“书呆子”的风险。百科全书是关于事实的，不记载说理和论点（除非论点已经被广泛接受，或者把所有论点都放进来）。百科全书可以解决事实的争论，不能解决观点的争论。要学会用百科全书的索引（按字母排）和目录（按主题排）。

Level 4 主题阅读

（原第二十章）
主题阅读是可行的，因为人类是可以沟通的，不同作者之间可以找到共通的词汇和概念。主题是随着阅读不断调整优化的。设计试验性书单，一般以论述性作品为主。主题阅读，可以使用主题工具书，告诉读者去哪里找与主题相关的章节。三方面的帮助：启动阅读、建议阅读、指导阅读。

主题阅读的准备阶段

分析阅读之前必须进行检视阅读，即系统略读和粗浅阅读。它能提供一个有关主题的清晰概念，并且书目简化到一个合理的程度。检视之后能将书单上的书进行分类，对内容有一个粗浅的了解，知道这本书对于研究的主题到底重不重要。

主题阅读的步骤

没有前一步就没有后一步。

步骤一. 找到相关的章节

主题阅读关心的是主题，而不是一本书。一本书对主题的帮助可能与作者写书的目的相去甚远。所以只要找出与主题最相关的章节即可。注意这一步不要和检视阅读放在一起做，因为这需要检视完所有书才能做到。

步骤二. 带引作者与你达成共识

根据主题创造出一套中立的词汇，强迫作者使用读者的语言而不是他自己的语言，无论作者是否用到这些词汇。

步骤三. 厘清问题

建立一个中立的主旨，列出一连串问题，让不同作者来回答。如果作者没有回答这些问题，要么有间接的回答，要么作者认为这个问题不是问题，或者他保持沉默。如果所有作者都用同一个方法回答问题，那问题就被一致的意见解决了。

步骤四. 界定议题

界定主要及次要的议题，两个作者对同一个问题有相当的了解但是给出了矛盾的回答的问题才是真正有参与的议题。然后将作者针对各个问题的不同意见整理陈列在各个议题之旁。作者之间不见得一定存在某个议题，有时候需要针对一些不是作者主要关心范围的事情，把他的观点解读，才能建构出议题。

步骤五. 分析讨论

这得把问题和议题按顺序排列，以易于说明主题本身或讨论的内容。比较有共通性的议题，要放在比较没有共通性的议题之前。各个议题之间的关系也要清楚地界定出来。

客观的必要性

有可能争论各方的意见都是错的或者不接近真实的。主题阅读的特质：辩证的客观，就是要能面面俱到而自己并不预设立场。这很难，因为偏见可能通过各种方式出现，例如总结论述的方式、侧重、评论语气、回答的顺序等。

要不断回头参阅作者的原文，重新阅读相关章节。总结的时候要用中立语言。

Chapter 3 阅读的方法

如何阅读论述性作品

实用型的书

（原第十三章）
任何实用性的书都不能替读者解决该书所关心的实际问题。

实用的书要被实用地阅读。阅读一本以规则为主的书时，要寻找那些规则。规则通常是命令句，如果是陈述句一般带有建议性。阅读一本主要谈规则背后的原理的书时，主旨比较像理论性的书，要看出原理衍生出来的规则，进一步找出规则应该如何应用。

规则要谈得上是真理，一是真的有效，二是这样做能达到正确的结果、读者的期望。评价一本实用性的书，要评价它的结果与目标。

阅读步骤，与那四个问题大致一致：

作者的目的是什么？
作者建议用什么方法达到这个目的，为什么？
是否接受作者的结论和他提出的方法？
这本书的意义，这一点改成我是否按照这个规则实际执行下去？

历史书

（原第十六章）
历史有就事实而言的历史和就书写记录而言的历史。事实是无法阅读的，所以这里谈的是书写记录的历史。我们定义，历史是叙事的，不论是否有秩序，其中都隐含着主题，否则不叫历史。

历史的特点：史实很难确定。历史是过去的故事，更像小说而非科学，但好的历史学家不会编造过去。

阅读历史书，第一，对感兴趣的事件或时期看一种以上的历史书；第二，不要只关心事件的时间地点，要读懂为什么人会如此这般行动，以推广到任何时空，尤其是现在。

阅读历史书要提出的问题

谈到的主题是什么？
用什么方法来说故事？
这个历史是否与相关事实相符？
这个历史对我的政治行为有什么启发？

传记也是一种历史。定案本：对一个人一生的完整报告，要用读历史的方式读。授权本：一般是这个人身边的人写的，可能有偏见（因为作者希望读者能用他的想法看主角）。介于之间的就是一般传记。

当前的事件也是历史，我们有义务了解身边的世界。但是当前的事件的信息源有限，一般是新闻报道，所以最重要的就是报道是谁写的，要问：作者想证明什么、要说服谁、他具有的特殊观念、使用的特殊语言、他是否真的知道事实。最重要的一点，目睹者要擦亮眼睛，考虑其中的利益关系。

读文摘 虽然是为了理解而阅读，但是获得资讯是必要的。文摘相当于分析阅读做的摘要。做摘要的时间省去了，就要仔细阅读摘要，在浓缩过的句子中读出言外之意。

科学与数学

（原第十七章）
这一章只讨论两种书：伟大的经典作品，现代科普著作。如今的科学论文是专家之间交换知识用的，而不是给门外汉看的，所以“我们没有资格帮助读者阅读”。

第一个问题“想要解决的是什么问题”，注意到问题本身以及问题的背景才算回答完这个问题。

第二个问题，之前提到科学作者会很努力与读者达成共识。科学的客观不在于最初的偏见，而在于坦白承认。

阅读科学作品的难点

一、有关论述的问题。科学是归纳法和演绎法，为了了解过程中的各个论点，就必须了解理论基础的证据，这需要读者亲身体验实验过程，或者去观察标本和模型。

二、有关数学的问题。许多科学作品涉及数学。数学是一种语言，有自己的字汇和语法，弄懂他们属于基础阅读层次。重点：首先要把基础程度的数学读明白，克服对数学的恐惧心理，读一些经典作品（这些作品不难读，而且可以略读）。其次要随时做笔记，掌握定理的说明、证明、引理、结论。注意读数学只是为了了解科学作品中的相关问题，所以不必太深入。

哲学书

（原第十八章）
哲学家提出的问题看起来不简单，因为回答起来很困难。提问题的时候如孩子般单纯，回答的时候却成熟而睿智。哲学家会提的问题分为两类：

与存在和发生有关，称为理论性或思辨性的哲学
- 主要探讨存在性，称为形上学
- 主要探讨事物的变化，称为自然哲学
- 主要探讨认知与知识，称为认知论
与应该做或探寻的事有关，称为实用的或规范的哲学

第一顺位问题：世上存在或发生什么事、人类该做该追求什么的问题；第二顺位问题：第一顺位中的知识、思考模式、表达方式等问题。第二顺位问题是哲学家为哲学家写的东西，第一顺位问题是普通大众感兴趣的问题。这里探讨第一顺位问题。

哲学的方法：比一般人更深刻地思考这个问题。不是观察探索，也不是寻找比一般人更多的经验。

哲学的论述风格

哲学对话，讨论-提问-说明主题，在立场从冲突中表达论说。好处：启发性，引领读者自己发现。代表人物：柏拉图
哲学论文或散文，提出主题-指出主要问题-从各方面完整讨论主题-讨论特殊问题，直接叙述自己的观点。好处：清晰，有秩序。代表人物：亚里士多德，康德
面对异议，提出问题-呈现错误回答-演绎错误论述-用经文反驳-解决方案。好处：整齐有序，在对立和冲突中让真理浮现。代表人物：托马斯·阿奎那
哲学系统化，用数学组织的方式将哲学本身整理出来，用严格的命题、证明、引理、旁注表现哲学问题。好处：组织化、离散化，可以像略读科学作品一样读哲学。代表人物：笛卡尔，斯宾诺莎
格言形式。好处：简短句子，有言外之意，要自己运用思考来理解。代表人物：尼采，帕斯卡，东方哲学家

阅读哲学的提示

最重要的一步，发现问题，或者找到书中想要回答的问题。
找出作者回答问题时的中心思想与原则。有的书没有明显地写出来，比较难找。
找到作者如何将这种概念在整本书中贯彻到底
理解作者的词义与基本主旨
接受作者的假设。通常这些假设是直接来自经验，是自明之理
运用思考、常识和观察，就像写作一样阅读哲学书

评论哲学书：读懂一本哲学书、以及其他谈论相同主题的书之后，就可以有评论的立场了。责任是厘清思路，哲学家彼此意见合不合不重要

读神学书：对于不信仰的人，要按读数学的精神读，即接受它的首要原则。对信仰的人，信仰是确定的知识，不是假设也不是试验性观点。

读经书/用于通过考试的教材：有义务从中找到意义，并从其他事实中举证其真实性。如果自己不能这么做，则有义务找能做到的人。

社会科学

（原第十九章）

社会科学包括了很多东西，人类学、经济学、政治学和社会学是核心，法律、教育、行政、社会服务作品也算。严格的人将心理学排除在外，因为心理学是个人特质而不是社会，但这里还是将心理学作品纳入考量。历史不算社会科学。或曰行为科学几乎成为了社会科学的同义词。

读社会科学的容易处=读社会科学的困难处

容易处：术语很熟悉。困难处：有的任意引用，不知道真正的意义。社会科学术语的说明本身就难，涉及情感、隐喻等。
容易处：取材于一般经验，涉及一般人都会有强烈意见的议题。困难处：混杂方式复杂，阅读的第一个问题就很难回答。

阅读社会科学，关于一个主题要读好几本书，因为作为新领域只有少数经典作品，且读社会科学时候主要着眼在特殊事件和问题，而不是特殊作者和一本书。衔接原先第二十章主题阅读

如何阅读想象文学

这类书的娱乐性大于教育性。所以上述的阅读方法需要做适当转化。

想象文学

（原第十四章）

论说作品传达知识，想象文学阐述经验本身。

“不要”

不要抗拒想象文学带给你的影响力。让故事在读者身上活动，达成某种深沉的经验。
不要找共识、主旨或论述。享受文字的多重字义带来的丰富性与渲染力。从想象中创造出的经验中学习。
不要用适用于传递知识的、与真理一致的标准来批评小说。只要能自圆其说就行了，读者想要的是故事，只要能在读者心中重建的世界中发生就行了。

“要”

第一阶段（拟大纲）规则
- 将想象文学作品分类。抒情诗（个人经验）、小说与戏剧（情节复杂，多角色）
- 用一两句话说明整本书的大意。大意在情节之中，也就是要能简要说明剧情。
- 发现书的各部分（情节）是如何架构起来的。知道故事从哪里开始、中间经过什么事、结局是什么；高潮如何发生、对之后情节的影响。抽离出情节来看是毫无意义的。
第二阶段（诠释内容）规则
- 熟知每个事件和人物的细节。因为小说的要素（事件、角色、思想、行为）就是作品中的共识。
- 想象亲临现场身历其境，知道事件的进行，找出要素之间的关联性，进而找出主旨。
- 参与作品中的任何活动，和角色共同完成探险。活动就是想象作品的论述发展。
第三阶段（评价）规则
- 先欣赏作者借由你的情绪和想象力创造出的世界与经验，否则不要批评一本想象作品。一个好的读者不会质疑自己心中重建出的世界。
第四阶段（实际意义）规则（在第十五章）
- 感受与体验。分析完想象文学之后是不用采取什么行动的，即使引导出行动也没有行动的必要，因为这不属于艺术领域。

阅读故事、戏剧与诗的一些建议

（原第十五章）
读故事书
快且全神投入地读。快是为了避免遗忘情节，全神投入是为了相信角色，活在他们的世界中。不必在意没明白的细节和复杂的人物情节，读完一遍后再读自然就知道有什么、什么是重要的、事件的关联、活动的顺序了。

评价故事书：虚构的故事能满足潜意识中的情绪需要。要分清是满足个人特殊潜意识还是大多数人潜意识。

读史诗
认真的读书计划不可或缺的六本书：荷马《伊里亚特》《奥德赛》、维吉尔《埃涅阿斯纪》、但丁《神曲》、弥尔顿《失乐园》、《圣经》。史诗需要集中注意力，全心参与并运用想象力

读戏剧
读剧本缺乏的是身体语言实际的演出。读者必须假装看到演出的实景。要把剧本搬到心灵舞台上演出一遍。剧作家不会留下舞台指导，读者作为导演要自己决定和判断，这一判断会是了解戏剧的中心点。

读萧伯纳式剧本，要读前言。

像是有听众在听一样，慢慢、带感情、大声读出剧本。可以让句子对读者别有深意。

读悲剧
悲剧的精髓在于缺乏时间。要想象在有限的时间中认识事物。

读抒情诗
诗如果不是赞美、或是唤起行动、或是不以韵文或诗的语言写作，就算不上诗。

规则一：一口气读完不要停，不管看没看懂。规则二：重新读，大声读出来，发现韵律掌握诗歌大意之后（即使很模糊），开始提问，一般是修辞和句法的问题。

一般没必要读“那个时代的资讯”，因为背景资料不一定保证读者能理解一首诗。

Appendix 1 一些语段

整本书语言没有写的很优雅，甚至有点啰嗦。但是这本书中一些论述十分深刻。这里记录一些我比较有印象的句子。

太多资讯如同太少资讯一样，都是对理解力的阻碍。现代的媒体正以压倒性的泛滥资讯阻碍了我们的理解力。……（媒体）的精心设计、独创辞藻与挑选统计使得人不需要面对困难或努力整理出“自己”的思路。（8）
阅读是跟着一位缺席的老师学习。向一本书问问题，必须自己回答这个问题。这本书就跟自然或世界一样，当你提出问题时，只有等你自己做了思考和分析之后，才能在书本上找到答案。（17）
如果你容许自己被某个顽固的段落绑住了，你就是被打败了。（35）
如果阅读的目标是获得利益（成长），在阅读中就要保持清醒。（42）
人们读一本好书的时候会打瞌睡，并不是他们不想努力，而是因为他们不知道如何努力。他们挂念着想读的好书太多了。而除非他们能真正起身接触到他们，把自己提升到同样的层次，否则他们所挂念的这些好书只会使他们厌倦而已。（44）
一个人如果称他知道他在想些什么，却说不出来，通常是他其实并不知道自己在想些什么。（45）
不论一个作品如何有原创性，不论他打破了多少传统所知的规则，他都必须有做出这样成品的技巧。（49）
习惯≠规则。阅读中有许多规则和技巧需要掌握。规则的多样化意味着要养成一个复杂的习惯，而不是多个习惯。要对每一个规则都很熟练，然后连贯起来形成一个整体流畅的动作。（50）
哲学老师会觉得以前没有被其他哲学老师教过的学生比较好教，科学老师会希望学生已经被其他科学老师所训练过。（68）
理性是人类表达同意的力量源泉，而人类的兽性与理性中不完美的部分则是造成许多不同意的原因。（132）
外界刺激的力量是有限的，像药品一样。如果没有内在生命力量，我们的智力、品德与心灵就会停止成长。当我们停止成长时，也就迈向了死亡。（297）
Q.E.D. 的全称：Quod erat demonstrandum （228）

Appendix 2 原书目录

（上面的笔记是按我自己的思路整理的，与原书的目录对不上。）

序言
第一篇阅读的层次
- 第一章阅读的活力与艺术
  - 主动的阅读
  - 阅读的目标：为获得资讯而读，以及为求得理解而读
  - 阅读就是学习：指导型的学习，以及自我发现型学习之间的差异
  - 老师的出席与缺席
- 第二章阅读的层次
- 第三章阅读的第一个层次：基础阅读
  - 学习阅读的阶段
  - 阅读的阶段与层次
  - 更高层次的阅读与高等教育
  - 阅读与民主教育的理念
- 第四章阅读的第二个层次：检视阅读
  - 检视阅读一：有系统的略读或粗读
  - 检视阅读二：粗浅的阅读
  - 阅读的速度
  - 逗留与倒退
  - 理解的问题
  - 检视阅读的摘要
- 第五章如何做一个自我要求的读者
  - 主动的阅读基础：一个阅读者要提出的四个基本问题
  - 如何让一本书真正属于你自己
  - 三种做笔记的方法
  - 培养阅读的习惯
  - 由许多规则中养成一个习惯
第二篇阅读的第三个层次：分析阅读
- 第六章一本书的分类
  - 书籍分类的重要性
  - 从一本书的书名中你能学到什么
  - 实用性vs.理论性作品
  - 理论性作品的分类
- 第七章透视一本书
  - 结构与规划：叙述整本书的大意
  - 驾驭复杂的内容：为一本书拟大纲的技巧
  - 阅读与写作的互惠技巧
  - 发现作者的意图
  - 分析阅读的第一个阶段
- 第八章与作者找出共通的词义
  - 单字vs.词义
  - 找出关键字
  - 专门用语及特殊字汇
  - 找出字义
- 第九章判断作者的主旨
  - 句子与主旨
  - 找出关键句
  - 找出主旨
  - 找出论述
  - 找出解答
  - 分析阅读的第二个阶段
- 第十章公正地评断一本书
  - 受教是一种美德
  - 修辞的作用
  - 暂缓评论的重要性
  - 避免争强好辩的重要性
  - 化解争议
- 第十一章赞同或反对作者
  - 偏见与公正
  - 判断作者的论点是否正确
  - 判断作者论述的完整性
  - 分析阅读的第三个阶段
- 第十二章辅助阅读
  - 相关经验的角色
  - 其他的书可以当作阅读时的外在助力
  - 如何运用导读与摘要
  - 如何运用工具书
  - 如何使用字典
  - 如何使用百科全书
第三篇阅读不同读物的方法
- 第十三章如何阅读实用型的书
  - 两种实用性的书
  - 说服的角色
  - 赞同实用书之后
- 第十四章如何阅读想象文学
  - 读想象文学的“不要”
  - 阅读想象文学的一般规划
- 第十五章阅读故事、戏剧与诗的一些建议
  - 如何阅读故事书
  - 关于史诗的重点
  - 如何阅读戏剧
  - 关于悲剧的重点
  - 如何阅读抒情诗
- 第十六章如何阅读历史书
  - 难以捉摸的史实
  - 历史的理论
  - 历史中的普适性
  - 阅读历史书要提出的问题
  - 如何阅读传记与自传
  - 如何阅读关于当前的事件
  - 关于文摘的注意事项
- 第十七章如何阅读科学与数学
  - 了解科学这一门行业
  - 阅读科学经典名著的建议
  - 面对数学的问题
  - 掌握科学作品中的数学问题
  - 关于科普书的重点
- 第十八章如何阅读哲学书
  - 哲学家提出的问题
  - 现代哲学与传承
  - 哲学的方法
  - 哲学的风格
  - 阅读哲学的提示
  - 厘清你的思绪
  - 关于神学的重点
  - 如何阅读“经书”
- 第十九章如何阅读社会科学
  - 什么是社会科学？
  - 阅读社会科学的容易处
  - 阅读社会科学的困难处
  - 阅读社会科学作品
第四篇阅读的最终目标
- 第二十章阅读的第四个层次：主题阅读
  - 在主题阅读中，检视阅读所扮演的角色
  - 主题阅读的五个步骤
  - 客观的必要性
  - 主题阅读的练习实例：进步论
  - 如何应用主题工具书
  - 构成主题阅读的原则
  - 主题阅读精华摘要
- 第二十一章阅读与心智成长
  - 好书能给我们什么帮助
  - 书的金字塔
  - 生命与心智的成长
附录一建议阅读书目
附录二四种层次阅读的练习与测验
索引

数学分析记忆佛脚（上）

Sat, 30 Dec 2023 00:00:00 GMT

import { Aside } from 'astro-pure/user'

目录（点击章节名称跳转到原始笔记）

（数学分析记忆佛脚上）↗

主线第一篇：极限论
- Chapter 1 函数与极限
- Chapter 2 导数与微分
- Chapter 3 函数与极限二周目
主线第二篇：积分学
- Chapter 4 不定积分
- Chapter 5 定积分
支线 1：Chapter 6 线性空间理论概述
支线 2：Chapter 7 常微分方程

（数学分析记忆佛脚下）↗

主线第三篇：多元微积分
- Chapter 8 欧氏空间上的函数与极限
- Chapter 9 多元函数微分学
- Chapter 10 重积分
- Chapter 11 曲线积分与曲面积分
主线第四篇：级数与广义积分
- Chapter 12 数项级数
- Chapter 13 函数项级数
- Chapter 14 广义积分与含参变量积分
- Chapter 15 Fourier级数与Fourier积分

Taylor 表

有阶乘：
- $\mathrm{e}^x=1+x+\dfrac12x^2+\dfrac16x^3\cdots$
- $\sin x=x-\dfrac16x^3+\dfrac{1}{120}x^5\cdots$
- $\cos x=1-\dfrac12x^2+\dfrac{1}{24}x^4\cdots$（sin求导）
- $(1+x)^\alpha=1+\alpha x+\dfrac{\alpha(\alpha!-!1)}{2}x^2+\dfrac{\alpha(\alpha!-!1)(\alpha!-!2)}{6}x^3\cdots$
不阶乘：
- $\dfrac{1}{1-x}=1+x+x^2\cdots$（等比数列求和）
- $\dfrac{1}{1+x}=1-x+x^2\cdots$（上式自变量取反）
- $\ln(1+x)=x-\dfrac12x^2+\dfrac13x^3\cdots$（第二条公式积分）
- $\arctan x=x-\dfrac13x^3+\dfrac15x^5\cdots$（第二条公式令 $x=x^2$ 再积分）
无规律：
- $\sqrt{1+x}=1+\dfrac12x-\dfrac18x^2+\dfrac1{16}x^3\cdots$
- $\sqrt[3]{1+x}=1+\dfrac13x-\dfrac19x^2+\dfrac5{81}x^3\cdots$
- $\tan x=x+\dfrac13x^3+\dfrac2{15}x^5\cdots$

积分表

三角函数类 $$ \left{ \begin{aligned} \cot'x&= \dfrac{-1}{\sin^2x}\ \tan'x&= \dfrac{1}{\cos^2x}\ \end{aligned} \right. \quad\quad \left{ \begin{aligned} \left(\dfrac1{\sin x}\right)'&= \dfrac{\cos x}{\sin^2x}\ \left(\dfrac1{\cos x}\right)'&= \dfrac{-\sin x}{\cos^2x}\ \end{aligned} \right. \quad\quad \left{ \begin{aligned} \textstyle\int \tan x ,\mathrm{d}x&= -\ln|\cos x,|+C\ \textstyle\int \cot x ,\mathrm{d}x&= \ \ \ \ln|\sin x\ |+C\ \textstyle\int \dfrac{1}{\sin x} ,\mathrm{d}x&= \dfrac12\ln\left|\dfrac{1-\cos x}{1+\cos x}\right|+C \end{aligned} \right. $$
平方和倒数 $$ \int \dfrac{\mathrm{d}x}{a^2+x^2}=\dfrac1a\int \dfrac{\mathrm{d}x}{1+(\frac xa)^2}=\dfrac1a\arctan \left(\dfrac xa\right)+C $$ $$ \int \dfrac{\mathrm{d}x}{(a^2+x^2)^2}=\dfrac{1}{2a^2}\left[\frac{x}{a^2+x^2}-\frac1a\arctan \left(\frac xa\right)\right]+C $$
双曲三角函数
- $x=\sinh t\Rightarrow t=\ln(x+\sqrt{x^2+1})$
- $x=\cosh t\Rightarrow t=\ln(x+\sqrt{x^2-1})$
- 如何判断换成哪个：看根号里面的符号
  - 换 $\sqrt{x^2{,\color{orange}+,}1}{}$ 中的元时，用 $\sinh$，根号里面是加
  - 换 $\sqrt{x^2{,\color{orange}-,}1}{}$ 中的元时，用 $\cosh$，根号里面是减
点火公式 $\displaystyle\int_0^{\pi/2}(\sin x)^n,\mathrm{d}x=\displaystyle\int_0^{\pi/2}(\cos x)^n,\mathrm{d}x=k\cdot\dfrac{(n-1)!!}{n!!}{}$
- 当 $n$ 偶时 $k=\pi/2$
- 当 $n$ 奇时 $k=1$
- 从分母开始倒数
三角有理化
- $t=\tan\dfrac x2$，$\mathrm{d}x=\dfrac{2}{1+t^2}\mathrm{d}t$
- $\tan x=\dfrac{2t}{1-t^2}{}$，（tan的二倍角公式）
- $\sin x=\dfrac{2t}{1+t^2}{}$，（刚才的减号改成了加号）
- $\cos x=\dfrac{1-t^2}{1+t^2}{}$，（sin/tan）

常微分方程

$y(x)$ 不好解时，可以改为求 $x(y)$
永远先尝试看看能不能凑微分，使得可以等式两边同时积分
一阶线性：$y'+P(x)y=Q(x)$
- 令 $\boxed{\color{transparent}{\small ccc} }=\mathrm{e}^{\int P(x)\mathrm{d}x}{}$，$y=\dfrac1{\boxed{\color{transparent}{\small ccc} } }\left(C+\displaystyle\int\boxed{\color{transparent}{\small cccc} }\ Q(x),\mathrm{d}x\right)$
- 变形：Bernoulli 方程 $y'+P(x)y=Q(x)y^n$
  - 把 $y^n$ 除过去，令 $u=y^{1-n}{}$ 得 $u'+P(x)(1!-!n)u=Q(x)(1!-!n)$
  - 若 $n=1$，移项合并 $y$ 直接解即可
二阶线性：$y''+p(x)y'+q(x)y=f(x)$，已知其导出方程（即 $f(x)$ 换成 $0$ 的方程）一个解 $y_1$
- Liouville 公式曰：导出方程的另一个解 $y_2=y_1\displaystyle\int\dfrac{\mathrm{e}^{-\int p(x)\mathrm{d}x} }{y_1^2},\mathrm{d}x$
- 原方程的特解 $y^\star=C_1y_1+C_2y_2$，其中 $C_1$ $C_2$ 满足

$$ \left{\begin{aligned}y_1C_1'+y_2C_2'&= 0\y_1'C_1'+y_2'C_2'&= f(x)\end{aligned}\right.,\Rightarrow,\left{\begin{aligned}C_1=\int\dfrac{-f(x)y_2}{y_1y_2'-y_2y_1'},\mathrm{d}x\C_2=\int\dfrac{f(x)y_1}{y_1y_2'-y_2y_1'},\mathrm{d}x\end{aligned}\right. $$

常系数齐次 $y^{(n)}+k_1y^{(n-1)}+k_2y^{(n-2)}+\cdots+k_{n-1}y'+k_n=0$
- 令 $y=\mathrm{e}^{\lambda x}{}$ 得特征方程
  $\lambda^n\ \ +k_1\lambda^{n-1}\ ,+k_2\lambda^{n-2}\ ,+\cdots+k_{n-1}\lambda\ +k_n=0$
  实数范围内因式分解之，例如 $(\lambda-a)(\lambda-b)^s(\lambda^2+c \lambda+d)(\lambda^2+m \lambda+n)^t\cdots=0$
- 单重实根 $\lambda=a$ 时，$y_1=\mathrm{e}^{ax}{}$
- 多重实根 $\lambda=b$ 时，$y_1=y_2=\cdots=y_s=\mathrm{e}^{bx}{}$
- 单重复根对 $\lambda=\alpha\pm\mathrm{i}\beta$ 时，$\left{\begin{aligned}y_{11}&= \mathrm{e}^{\alpha x}\cos\beta x\y_{12}&= \mathrm{e}^{\alpha x}\sin\beta x\end{aligned}\right.$
- 多重复根对 $\lambda=\alpha\pm\mathrm{i}\beta$ 时，$\left{\begin{aligned}y_{11}=\mathrm{e}^{\alpha x}\cos\beta x,,y_{21}=x\mathrm{e}^{\alpha x}\cos\beta x,\cdots,y_{t1}=x^{t-1}\mathrm{e}^{\alpha x}\cos\beta x\y_{12}=\mathrm{e}^{\alpha x}\sin\beta x,,y_{22}=x\mathrm{e}^{\alpha x}\sin\beta x,\cdots,y_{t2}=x^{t-1}\mathrm{e}^{\alpha x}\sin\beta x\end{aligned}\right.$
常系数非齐次（例如 $y'''+by''+cy'+d=f(x)$），只讲特解的求法
- 当 $f(x)=P_m(x)\mathrm{e}^{tx}{}$ 时：设特解 $y^\star=Q(x)\mathrm{e}^{tx}{}$，其中 $Q(x)=x^r!\cdot!(R_m)$，$r$ 的值取决于 $t$ 是特征方程的几重根。然后代入方程用待定系数法求。这里给出代入方程并初步化简后的结果：
  $$ (t^3!+!bt^2!\underbrace{+ct!+!d)Q+(3t^2+}{对t导后\div1}2\underbrace{bt!+!c)Q'+(3t}{对t导后\div2}!+!\underbrace{b)Q''+1}_{对t导后\div3}Q'''=P $$
- 当 $f(x)=P_m(x)\mathrm{e}^{tx}\cos\omega x$ 或 $f(x)=P_m(x)\mathrm{e}^{tx}\sin\omega x$ 时：设特解 $y^\star=x^r\mathrm{e}^{tx}\big(Q_m(x)\cos\omega x+R_m(x)\sin\omega x\big)$，其中 $r$ 的值取决于 $t$ 是特征方程的几重根
Euler 方程 $\sum\limits a_ix^iy^{(i)}=f(x)$
- 令 $x=\mathrm{e}^t$，算子 $D=\dfrac{\mathrm{d}}{\mathrm{d}t}{}$，得$x^ky^{(k)}=D(D-1)(D-2)\cdots(D-(k!-!1))y$，记几个常见的
  - $k=1$：$(xy')=\dot{y}{}$
  - $k=2$：$(x^2y'')=\ddot{y}-\dot{y}{}$

定积分的几何应用

弧长公式 $L=\displaystyle\int_\alpha^\beta\sqrt{(\dot x)^2+(\dot y)^2},\mathrm{d}t$
曲率公式 $\kappa=\dfrac{|\mathrm{d}\theta|}{|\mathrm{d}L|}=\dfrac{|\mathrm{d}\theta/\mathrm{d}t|}{|\mathrm{d}L/\mathrm{d}t|}=\dfrac{|\ddot{y}\dot{x}-\dot{y}\ddot{x}|}{\quad\big((\dot x)^2+(\dot y)^2\big)^{3/2} }$，圆的曲率 $\kappa=\dfrac1R$
极坐标弧长 $L=\displaystyle\int_\alpha^\beta\sqrt{r^2+(r')^2},\mathrm{d}\theta$
极坐标扇形面积 $S=\dfrac12\displaystyle\int_\alpha^\beta r^2,\mathrm{d}\theta$
旋转体侧面积 $S=2\pi\displaystyle\int_a^bf\sqrt{1+(f')^2},\mathrm{d}x$
旋转体体积 $V=\pi\displaystyle\int_a^bf^2,\mathrm{d}x$