给定概率空间$\left( \Omega ,\mathsf{\mathcal{F}},P \right)$。
从条件概率的公式出发:当$P\left( A \right)>0$时
$$P\left( B|A \right)=\frac{P\left( B\bigcap A \right)}{P\left( A \right)}$$
可以定义概率测度$${{P}_{A}}\left[ B \right]=P\left[ B|A \right]=\frac{\int_{B}{{{1}_{A}}dP}}{P\left[ A \right]}$$
其中$B\in \mathsf{\mathcal{F}}$。
基于${{P}_{A}}\left[ B \right]$的定义,可以定义
$$E\left[ f|A \right]={{E}_{A}}\left[ f \right]=\int{fd{{P}_{A}}}=\frac{\int{f{{1}_{A}}dP}}{P\left[ A \right]}=\frac{\int_{A}{fdP}}{P\left[ A \right]}$$
这里第三个等号的理解需要用到: https://www.jcy1998.com/2025/02/07/691/
进一步推广,定义$\mathsf{\mathcal{G}}=\sigma \left( {{A}_{j}}:j\ge 1 \right)$,其中${{A}_{j}}:j\ge 1$形成了$\Omega $的一个划分,并且有${{A}_{j}}\in \mathsf{\mathcal{F}}$。
通过证明可得当且仅当$B=\underset{j\in M}{\mathop{\bigcup }}\,{{A}_{j}}$,其中$M\in \mathbb{N}$。
并且可以证明一个函数$h:\Omega \to \mathbb{R}$关于$\mathsf{\mathcal{G}}$可测当且仅当$h$在每个${{A}_{j}}$上都是常数。
定义$$E\left[ f|\mathsf{\mathcal{G}} \right]\left( \omega \right):\omega \to \mathbb{R}$$ $$E\left[ f|\mathsf{\mathcal{G}} \right]\left( \omega \right)=\sum\limits_{n\ge 1}{E\left[ f|{{A}_{n}} \right]}{{1}_{{{A}_{n}}}}$$
注意这是$\omega $的函数,并且有$B\in \mathsf{\mathcal{G}}$。
可以证明对每个有界$\mathsf{\mathcal{G}}$可测函数,$$\int{E\left[ f|\mathsf{\mathcal{G}} \right]hdP}=\int{fhdP}$$
进一步推广至一般的可积函数$f\in \mathsf{\mathcal{F}}$和一般的$\sigma $代数$\mathsf{\mathcal{G}}\subset \mathsf{\mathcal{F}}$:
我们说一个函数$F=E\left[ f|\mathsf{\mathcal{G}} \right]$是条件期望,需要以下两个条件成立:
(1)$F\in \mathsf{\mathcal{G}}-measurable$
(2)$\forall B\in \mathsf{\mathcal{G}},\int_{B}{FdP}=\int_{B}{fdP}$
这样的函数是存在且唯一定义的。特别有如果$f$是$\mathsf{\mathcal{G}}$可测的,那么有$E\left[ f|\mathsf{\mathcal{G}} \right]=f$。
进一步可以定义$A\in \mathsf{\mathcal{F}}$的$P\left[ A|\mathsf{\mathcal{G}} \right]=E\left[ {{1}_{A}}|\mathsf{\mathcal{G}} \right]$
和$E\left[ f|\sigma \left( X \right) \right]=E\left[ f|X \right]$,其中$\sigma \left( X \right)$是使随机变量$X$可测的最小的$\sigma $代数。
在此基础上,可以证明条件期望的诸多性质。
但是这里想记录的是,当将这个条件期望与应用相联系时,发现这种定义是从满足特定性质的函数出发的,而不是一种通常的直观的表达式,这给理解带来了困难。为了将这里的条件期望公式与 https://www.bilibili.com/video/BV1Rz42127xT/ 中,张颢老师提到的条件期望相联系:条件期望$E\left[ {{X}_{2}}|{{X}_{1}} \right]$是${{X}_{1}}$的函数。查阅到了相关资料: https://zhuanlan.zhihu.com/p/721291903 ,现进行记录。
命题:$X,Y$是定义在$\left( \Omega ,\mathsf{\mathcal{F}},P \right)$上的随机变量,其中$X$可积,那么对于$P$,几乎处处有下式成立:
$$
(E\left[ {X|Y} \right]\left( \omega \right) = E\left[ {X|Y = Y\left( \omega \right)} \right] \buildrel \Delta \over = \mathop {\lim }\limits_{\varepsilon \to {0^ + }} \frac{{E\left[ {X \cdot {1_{\left\{ {\left| {Y - Y\left( \omega \right)} \right| < \varepsilon } \right\}}}} \right]}}{{P\left[ {\left| {Y - Y\left( \omega \right)} \right| < \varepsilon } \right]}})
$$
可以证明该极限是一定存在的。
这个定义实际上给了一个条件期望的逐点的定义,给定$\omega $,就可以得知随机变量$Y\left( \omega \right)$在实数$\mathbb{R}$上的取值,从理解上讲,对某个$\omega $,$Y\left( \omega \right)={{c}_{0}}$是一个常数。可以从极限状态的近似理解:$$E\left[ X|Y \right]\left( \omega \right)=\frac{E\left[ X\cdot {{1}_{Y=Y\left( \omega \right)}} \right]}{P\left[ Y=Y\left( \omega \right) \right]}$$
将$Y$考虑成离散随机变量也是这个结果。显然,当不同的$\omega $使得$Y$取值相同时,$E\left[ X|Y \right]\left( \omega \right)$的取值是一样的,这也就可以看作$E\left[ X|Y \right]\left( \omega \right)$是一个关于$Y=y$的$y$的函数,就与“条件期望$E\left[ {{X}_{2}}|{{X}_{1}} \right]$是${{X}_{1}}$的函数。”的说明相融洽了。
以离散型随机变量理解,进一步有$${{E}_{Y}}\left[ {{E}_{X}}\left[ X|Y\left( \omega \right) \right] \right]=\int{{{E}_{X}}\left[ X|Y\left( \omega \right) \right]}dP=\sum\limits_{c}{E\left[ X|Y\left( \omega \right)=c \right]P\left[ Y\left( \omega \right)=c \right]}$$
这是因为$E\left[ X|Y\left( \omega \right)=c \right]$在所有$Y\left( \omega \right)=c$的$\omega $上取值一致。这进一步对应了 https://www.bilibili.com/video/BV1Rz42127xT/ 中求条件期望的条件期望的计算。
以上是自己理解的地方,不准确,但是为了不让时间过了太久将这个思考过程遗忘掉,特地记录。