介绍
在分析和概率论中,人们出于各种原因研究(随机变量的)各种收敛。在这篇文章中,我们研究了模糊收敛,它负责分布的收敛。
含糊地说,模糊收敛是人们可以预期的最弱的一种收敛(同时仍然尽可能关心连续性)。我们不考虑随机变量序列之间的任何依赖关系。
自始至终,固定一个概率空间$(\Omega,\mathscr{F},\mathscr{P})$,其中$\Omega$是样本空间,$\mathscr{F}$是事件空间,$\mathscr{ P}$ 概率函数。设 $(X_n)$ 为该空间上的一系列随机变量。每个随机变量 $X_n$ 规范地导出概率空间 $(\mathbb{R},\mathscr{B},\mu_n)$,其中 $\mathscr{B}$ 是 Borel $\sigma$ 度量。为了避免符号地狱,我们只考虑对应 $X_n \leftrightarrow \mu_n$ 其中
问题来了:如果 $X_n$ 趋于极限,那么我们会期望 $\mu_n$ 在某种意义上(至少在某些区间)收敛到极限(比如 $\mu$)。但情况总是如此吗?即使数列收敛,我们还能有 $\mu(\mathbb{R})=1$ 吗?我们将通过一些例子看到事实并非如此。
示例:区间收敛失败
让 $X_n\equiv\frac{(-1)^n}{n}$,然后 $X_n\to 0$ 确定性地。对于任何 $a>0$,序列 $\mu_n((0,a))$ 在 $0$ 和 $1$ 之间振荡,即它以以下形式结束
根本不收敛。同样,对于任何 $b<0$,序列 $\mu_n((b,0))$ 在 $1$ 和 $0$ 之间振荡。
作为收敛失败的另一个例子,将 $b_n<0<a_n$ 与 $a_n \to 0$ 和 $b_n \to 0$ 视为 $n \to \infty$,并设 $X_n$ 为随机变量序列$(b_n,a_n)$ 上的均匀分布。我们看到$X_n \to 0$ ae但是$\mu_n((b,0))$,受制于$X_n$下$b_n$和$0$之间的区域,可能根本不收敛,或者收敛到任何数在 $0$ 和 $1$ 之间。
示例:无法收敛到概率度量
我们编写了一个示例,其中 $\mu_n$ 收敛到 $\mu$,其中 $\mu(\mathbb{R})<1$,从而防止 $\mu$ 成为概率度量。为此,固定两个正数 $\alpha$ 和 $\beta$ 使得 $\alpha+\beta<1$。考虑随机变量 $X_n$ 的序列
然后 $X_n \to X$ 其中
那么$\lim_n\mu_n(\mathbb{R})=1-\alpha-\beta<1$。此度量的原子已逃逸到 $+\infty$ 和 $-\infty$。
这些例子启发我们发展一种较弱的收敛意识,我们只考虑间隔(因为我们希望连续函数发挥作用)。
定义
从上面的例子可以看出,并不是一直期望达到$=1$。因此,我们改为考虑 $\le 1$,因此遵循以下概率度量和分布函数的弱化版本。
定义 1.如果 $\mu(\mathbb{R}) \le 1$,则 $\mathbb{R}$ 上的测度 $\mu$ 是子概率测度(spm)。相应地,关于 $\mu$ 的子分布函数(sdf) 定义为
当 $\mu(\mathbb{R})=1$ 时,没有什么新鲜事,但即使没有,我们也没有太多障碍。我们仍然看到 $F(x)$ 是一个右连续函数,其中 $F(-\infty)=0$ 且 $F(+\infty)=\mu(\mathbb{R}) \le 1$。为了简洁起见,我们将从现在开始将 $\mu((a,b])$ 写入 $\mu(a,b]$,对于其他类型的间隔也类似。我们还将 $\mu(a,b )=0$ when $a>b$ 因为为什么不呢。
我们的示例还警告我们原子是一个大问题,这导致我们得出以下有关区间的定义。
定义 2.符号如上,如果 $a$ 和 $b$ 都不是 $\mu$ 的原子,则区间 $(a,b)$ 称为连续区间,即如果 $\mu(a,b)= \mu[a,b]$。
在我们的第一组示例中,可以测试 $(0,1)$ 是否是连续区间。现在我们准备好模糊收敛的定义了。
定义 3.如果存在稠密子集 $D \subset \mathbb{R}$,则称 spm 的序列 $(\mu_n)$模糊收敛到 spm $\mu$ 使得
我们写成 $\mu_n \xrightarrow{v} \mu$。
设 $(F_n)$ 是 $(\mu_n)$ 的对应自变量,$F$ 是 $\mu$ 的自变量。然后我们说 $F_n$ 模糊地收敛到 $F$ 并写成 $F_n \xrightarrow{v} F$。
在这种情况下,我们没有为随机变量 (rv) 构建基础设施是不公平的。我们介绍以下您可能已经在基于微积分的概率论中学习过的概念:
定义 4.设 $(X_n)$ 为具有相应累积分布函数 (cdf) $(F_n)$ 的 rv 序列。如果 $F_n \xrightarrow{v} F$,我们说 $X_n$ 弱收敛或分布到 $X$(具有相应的 cdf $F$)。
在基于微积分的概率论中,只要 $F$ 在 $x$ 处连续,就会研究 $F_n(x) \to F(x)$。这个定义更容易理解,但跳过了很多重要的细节。
等效条件
在本节中,我们从测度论的角度研究模糊收敛,大部分时间使用 $\varepsilon-\delta$ 参数。我们将看到收敛看起来与 $\mathbb{R}$ 的收敛非常相似。
设 $(a_n)$ 为实数序列,我们可以回忆一下
- 如果 $(a_n)$ 收敛,则极限是唯一的。
- 如果 $(a_n)$ 是有界的,那么它有一个有界的子序列。
- 如果 $(a_n)$ 的每个子序列都收敛到 $a$,则 $a_n$ 收敛到 $a$。
这些结果在微积分的背景下是自然的,但在拓扑和功能分析的世界中,这些不是自然预期的。然而,spm 喜欢这三个(关于第二点,请注意 spm 无论如何在某种意义上是有界的。)然而,在这里包含所有内容并假设读者将一次完成它就太雄心勃勃了。
定理 1.让 $(\mu_n)$ 和 $\mu$ 是 spm 的。以下条件是等效的:
(1) $\mu_n \xrightarrow{v} \mu$。
(2) 对于每个有限区间 $(a,b)$ 和 $\varepsilon>0$,存在一个 $n_0(a,b,\varepsilon)$ 使得每当 $n \gen_0$,
(3) 对于 $\mu$ 的每个连续区间 $(a,b]$,我们有
当$(\mu_n)$和$\mu$是pm的时候,第二个条件等价于“uniformed”版:
(4) 对于每个 $\delta>0$ 和 $\varepsilon>0$,存在 $n_0(\delta,\varepsilon)$ 使得如果 $n \gen_0$,则对于每个区间 $(a,b )$,可能是无限的:
证明。我们首先研究前三个语句的等价性。假设 $\mu_n$ 模糊地收敛到 $\mu$。给定实线的密集子集 $D$ 使得每当 $a,b \in D$ 和 $a 0$ 时,$a_1,a_2,b_1,b_2 \in D$ 满足
通过模糊收敛,存在 $n_0>0$ 使得每当 $n \ge n_0$,
对于 $i=1,2$ 和 $j=1,2$。它遵循
另一方面
两者结合起来,含义就很清楚了。
接下来,我们假设 (2),并令 $(a,b)$ 为 $\mu$ 的连续区间,即我们有 $\mu(a,b)=\mu[a,b]$。关系 $\mu(a+\varepsilon,b-\varepsilon)-\varepsilon \le \mu_n(a,b)$ 意味着
对所有 $\varepsilon>0$ 成立。另一方面,作为左侧的 $\varepsilon \to 0$,我们看到
同样,关系 $\mu_n(a,b) \le \mu(a-\varepsilon,b+\varepsilon)+\varepsilon$ 产生
当 $\varepsilon \to 0$ 在右边,我们得到
总结双方,注意
这迫使 $\mu_n(a,b)$ 收敛到 $\mu(a,b)$。这意味着 $\mu_n(a,b] \to \mu(a,b]$。要看到这一点,请选择另一个连续区间 $(a,b’)$,它正确地包含 $(a,b)$。然后$(b,b’)$ 是另一个连续区间。它遵循
假设(3)。请注意,$\mu$ 的原子集 $A$ 必须至多可数,因此 $D=\mathbb{R} \setminus A$ 在 $\mathbb{R}$ 中是稠密的。另一方面,$(a,b]$ 是一个连续区间当且仅当 $a,b \in D$。这意味着 (1)。
上述论证也表明,在讨论模糊收敛时,可以自由地将$(a,b]$替换为$(a,b)$、$(a,b]$或$[a,b]$,只要$(a,b)$是一个连续的区间,它也遵循$\mu_n(\{a\}) \to 0$。
对于 (4),由于 (4) 蕴含 (2)(通过取 $\delta=\varepsilon>0$),它仍然表明 (3) 蕴涵 (4) 假设 $\mu_n$ 和 $\mu$是下午的。确实,在有限区间内证明它就足够了,我们将首先证明这一行动。设 $A$ 表示 $\mu$ 的原子集。首先,我们可以选择整数 $n>0$ 使得 $\mu(-n,n) > 1-\frac{\varepsilon}{4}$(也就是说,区间太大以至于度量很接近到 1 美元就够了)。选择 $\alpha,\beta \in A^c$ 使得 $a \le -n$ 和 $b \ge n$ (这是可能的,因为 $A^c$ 是密集的)。对于区间$(\alpha,\beta)$,我们可以进行有限划分
这样 $|a_{j+1}-a_j| \le \delta$ 和 $a_j \in A^c$ 对于所有 $j=1,\dots,\ell-1$。因此,我们有
根据 (3),存在 $n_0$ 取决于 $\varepsilon$ 和 $\ell$(因此 $\delta$)使得
对于所有 $n \ge n_0$。添加所有 $j$,用开区间替换端点,我们看到
它遵循
(这是 pm 重要的地方。)因此,当 $n \ge n_0$ 和讨论 $\mu(a,b)$ 与 $\mu_n(a,b)$ 时,忽略 $(a,b) \setminus (a_1 ,a_\ell)$ 只会导致错误 $<\frac{\varepsilon}{2}$。因此,只要假设 $(a,b) \subset (a_1,a_\ell)$ 并证明
由于 $(a,b) \subset (a_1,a_\ell)$,存在 $j,k$ 且 $1 \le j \le k < \ell$ 使得
证明到此结束,并说明了为什么我们对 $a_j$ 的特定选择很重要。 $\平方$
我们不能对以上三点都给出处理,但是第一点,模糊极限的唯一性,现在已经很清楚了。
推论 1(模糊极限的唯一性)。定义 3 中的符号。如果存在另一个 spm $\mu’$ 和另一个稠密集 $D’$ 使得每当 $a,b \in D’$ 和 $a<b$ 时,一个有 $\mu_n(a ,b] \to \mu'(a,b]$,那么 $\mu$ 和 $\mu’$ 是相同的。
证明。令$A$为$\mu$和$\mu’$的原子集;那么如果 $a,b \in A^c$, 一个有 $\mu_n(a,b] \to \mu(a,b]$ 和 $\mu_n(a,b] \to \mu'(a, b]$。因此 $\mu(a,b]=\mu'(a,b]$。由于 $A^c$ 在 $\mathbb{R}$ 中是稠密的,因此它们两者必须相同。 $\square $