第2章　随机变量及其分布

2.1　复习笔记

一、随机变量及其分布

1随机变量的概念

定义：在样本空间Ω上的实值函数X＝X（∞）称为随机变量，常用大写字母X，Y，Z等表示随机变量，其取值用小写字母x，y，z等表示．

（1）离散随机变量：一个随机变量仅可能取有限个或可列个值；

（2）连续随机变量：一个随机变量的可能取值充满数轴上的一个区间（a，b），其中a可以是－∞可以是∞．

这个定义表明：函数的自变量（样本点）可以是数，也可以不是数，但因变量一定是实数．

一般变量与随机变量的区别：有没有分布函数．

2随机变量的分布函数

（1）定义：设X是一个随机变量，对任意实数x，称F（x）＝P（X≤x）为随机变量X的分布函数，且称X服从F（x），记为X～F（x）．有时也可用F_X（x）表明是X的分布函数（把X写成F的下标）．

（2）定理：任一分布函数F（X）都具有如下三条基本性质：

①单调性：F（x）是定义在整个实数轴（－∞，∞）上的单调非减函数，即对任意的x₁＜x₂，有F（x₁）≤F（x₂）．

②有界性：对任意的x，有0≤F（x）≤1，且

③右连续性：F（x）是x的右连续函数，即对任意的x₀，有

即F（x₀＋0）＝F（x₀）

这三个基本性质为判别某个函数是否能成为分布函数的充要条件．

当F（x）在a与b处连续时，有F（a－0）＝F（a），F（b－0）＝F（b）．

3离散随机变量的概率分布列

（1）定义：设X是一个离散随机变量，如果X的所有可能取值是x₁，x₂，…，x_n，…，则称X取x_i的概率p_i＝p（x_i）＝P（X＝x_i），i＝1，2，…n，…为X的概率分布列或简称为分布列，记为X～{p_i}．

分布列也可用下表来表示：

或记成

（2）分布列的基本性质

①非负性：p（x_i）≥0，i＝1，2，…．

②正则性：

这两条基本性质也是某个数列是否能成为分布列的充要条件．

4连续随机变量的概率密度函数

（1）定义：设随机变量X的分布函数为F（x），如果存在实数轴上的一个非负可积函数p（x），使得对任意实数都有

则称p（x）为X的概率密度函数，简称为密度函数，或称密度．

（2）密度函数的基本性质

①非负性：p（x）≥0．

②正则性：

（含有p（x）的可积性）

以上两条基本性质也是确定或判别某个函数是否成为密度函数的充要条件．

注：已知某个函数p（x）为密度函数，若p（x）中有一个待定常数，则该常数必定可利用正则性来确定

除了离散分布和连续分布之外，还有既非离散又非连续的分布，见下例．

例：以下的函数F（x）确是一个分布，它的图形如图2-1-1所示．

图2-1-1　既非离散又非连续的分布函数示例

从上图可以看出：它既不是阶梯函数，又不是连续函数，所以它既非离散的又非连续的分布．它是新的一类分布，这类分布函数F（x）常可分解为两个分布函数的凸组合．

5概率密度函数与概率分布列之间的差别

（1）离散随机变量的分布函数F（x）总是右连续的阶梯函数，而连续随机变量的分布函数F（x）一定是整个数轴上的连续函数．

（2）离散随机变量X在其可能取值的点x₁，x₂，…，x_n，…上的概率不一定为0，而连续随机变量x在（－∞，∞）上任一点a的概率恒为0．这表明：不可能事件的概率为0，但概率为0的事件（如P（X＝0）＝0）不一定是不可能事件．

（3）由于在若干点上改变密度函数p（x）的值并不影响其积分的值，从而不影响其分布函数F（x）的值，这意味着一个连续分布的密度函数不唯一．

二、随机变量的数学期望

1数学期望的定义

（1）离散型随机变量

定义：设离散随机变量X的分布列为p（x_i）＝P（X＝x_i），i＝1，2，…，n，…如果

则称

为随机变量X的数学期望，或称作该分布的数学期望，简称期望或均值．若级数不收敛，则称X的数学期望不存在．

（2）连续型随机变量

定义：设连续随机变量x的密度函数为p（x）．如果

则称

为X的数学期望，或称作该分布p（x）的数学期望，简称期望或均值．若不收敛，则称X的数学期望不存在．

2数学期望的性质

按照数学期望E（X）的定义，E（X）由其分布唯一确定．若要求随机变量X的一个函数g（X）的数学期望，当然要先求出Y＝g（X）的分布，再用此分布来求E（Y）．

（1）定理：若随机变量X的分布用分布p（x_i）或用密度函数p（x）表示，则X的某一函数g（X）的数学期望为

这里所涉及的数学期望都假设存在．

（2）若c是常数，则E（c）＝c．

（3）对任意常数a，有E（aX）＝aE（X）．

（4）对任意的两个函数g₁（x）和g₂（x），有E（g₁（x）±g₂（x））＝E（g₁（x））±E（g₂（x））．

三、随机变量的方差与标准差

1方差与标准差的定义

若随机变量X²的数学期望E（X²）存在，则称偏差平方（X－EX）²的数学期望E（X－EX）²为随机变量X（或相应分布）的方差，记为

方差的正平方根为随机变量X（或相应分布）的标准差，记为σ（X），或σ_X．

注：如果随机变量X的数学期望存在，其方差不一定存在；而当X的方差存在时，则E（x）必定存在，其原因在于|x|≤x²＋1总是成立的．

2方差的性质

以下均假定随机变量的方差是存在的．

（1）Var（X）＝E（X²）－[E（X）]²．

（2）常数的方差为0，即Var（c）＝0，其中c是常数．

（3）若a，b是常数，则Var（aX＋b）＝a²Var（X）．

3切比雪夫不等式

（1）定理一（切比雪夫不等式）

设随机变量X的数学期望和方差都存在，则对任意常数ε＞0，有

或

（2）定理二

若随机变量x的方差存在，则Var（X）＝0的充要条件是X几乎处处为某个常数a，即P（X＝a）＝1．

四、常用离散分布

1二项分布

（1）定义：若X的分布列为

则这个分布称为二项分布，记为X～b（n，p）．

（2）数学期望和方差

设随机变量X～b（n，p），则E（X）＝np，Var（X）＝np（1－p）．

2二点分布

（1）定义：n＝1时的二项分布b（1，p）称为二点分布，或称0-1分布，或称伯努利分布，其分布列为P（X＝x）＝p^x（1－p）¹^－^x，x＝0，1，或记为

二点分布b（1，p）主要用来描述一次伯努利试验中成功（记为A）的次数（0或1）．

（2）数学期望和方差

因为二点分布是n＝1时的二项分布b（1，p），所以二点分布的数学期望为p，方差为p（1－p）．

3泊松分布

（1）定义：泊松分布的概率分布列是

其中参数λ＞0，记为X～P（λ）．

（2）数学期望和方差

设随机变量X～P（λ），则

Var（X）＝E（X²）－（E（X））²＝λ²＋λ－λ²＝λ．

4二项分布的泊松近似

泊松定理：在n重伯努利试验中，记事件A在一次试验中发生的概率为p_n（与试验次数n有关），如果当n→∞时，有np_n→λ，则

由于泊松定理是在bp_n→λ条件下获得的，故在计算二项分布b（n，p）时，当n很大，p很小，而乘积λ＝np大小适中时，可以用泊松分布作近似，即

5超几何分布

（1）设有N件产品，其中有M件不合格品．若从中不放回地随机抽取n件，则其中含有的不合格品的件数X服从超几何分布，记为X～h（n，N，M）．

超几何分布的概率分布列为

其中r＝min{M，n}且M≤N，n≤N，n，N，M均为正整数．

（2）数学期望和方差

若X～h（n，N，M），则X的数学期望为

X的方差为Var（X）＝E（X²）－[E（X）]²＝nM（N－M）（N－n）/[N²（N－1）]

6超几何分布的二项近似

当n＜＜N时，即抽取个数n远小于产品总数N时，每次抽取后，总体中的不合格品率p＝M/N改变甚微，所以不放回抽样可近似地看成放回抽样，这时超几何分布可用二项分布近似：

其中p＝M/N

7几何分布与负二项分布

（1）几何分布

在伯努利试验序列中，记每次试验中事件A发生的概率为p，如果X为事件A首次出现时的试验次数，则X的可能取值为1，2，…，称X服从几何分布，记为X～Ge（p），其分布列为P（X＝k）＝（1－p）^k^－¹p，k＝1，2，…．

（2）几何分布的数学期望和方差

设随机变量X服从几何分布Ge（p）令q＝1－p利用逐项微分可得X的数学期望为

X的方差为Var（X）＝E（X²）－[E（X）]²＝2q/p²＋1/p－1/p²＝（1－p）/p²

（3）几何分布的无记忆性

定理（几何分布的无记忆性）：设X～Ge（p），则对任意正整数m与n有

P（X＞m＋n|X＞m）＝P（X＞n）

（4）负二项分布

负二项分布，亦称巴斯卡分布．在伯努利试验序列中，记每次试验中事件A发生的概率为p，如果X为事件A第r次出现时的试验次数，则X的可能取值为r，r＋1，…，r＋m，…．称X服从负二项分布或巴斯卡分布，其分布列为

记为X～Nb（r，p）．

五、常用连续分布

1正态分布的密度函数和分布函数

（1）密度函数：若随机变量X的密度函数为

则称X服从正态分布，称X为正态变量，记作X～N（μ，σ²）．其中参数－∞＜μ＜∞，其密度函数p（x）的图形如图2-1-2（a）所示．

图2-1-2（a）　正态分布的密度函数p（x）

该图形有如下几个特征：

①p（x）是一条钟形曲线，中间高、两边低；

②左右关于μ对称，μ是正态分布的中心，且在x＝μ附近取值的可能性大，在两侧取值的可能性小．

③μ±σ是该曲线的拐点．

（2）分布函数：正态分布N（μ，σ²）．的分布函数为

它是一条光滑上升的S形曲线，见图2-1-2（b）．

图2-1-2（b）　正态分布的分布函数F（x）

图2-1-3给出了μ和δ变化时，相应正态密度曲线的变化情况．

图2-1-3（a）　δ固定，μ值改变的正态密度函数

图2-1-3（b）　μ固定，δ值改变的正态密度函数

①从图2-1-3（a）中可以看出：如果固定δ，改变μ的值，则图形沿x轴平移，而不改变其形状．也就是说正态密度函数的位置由参数μ所确定，因此亦称μ为位置参数．

②从图2-1-3（b）中可以看出：如果固定μ，改变δ的值，则分布的位置不变，但δ愈小，曲线呈高而瘦，分布较为集中；δ愈大，曲线呈矮而胖，分布较为分散．也就是说正态密度函数的尺度由参数δ所确定，因此称δ为尺度参数．

2标准正态分布

当μ＝0，σ＝1时的正态分布N（0，1）为标准正态分布，通常记标准正态变量为U，记标准正态分布的密度函数为φ（u），分布函数为Φ（u），即

对于Φ（u）有

Φ（－u）＝1－Φ（u）

P（U＞u）＝1－Φ（u）

P（a＜U＜b）＝Φ（b）－Φ（a）

P（|U|＜c）＝2Φ（c）－1（c≥0）

3正态变量的标准化正态分布

定理：若随机变量X～N（μ，σ²），则U＝（X－μ）/σ～N（0，1）．

4正态分布的数学期望与方差

设随机变量X～N（μ，σ²）由于U＝（X－μ）/σ～N（0，1）所以U的数学期望为

则E（U）＝0，又因为X＝μ＋σU，所以由数学期望的性质得X＝E（X）＝μ＋σ×0＝μ，就是说，正态分布N（μ，σ²）中的μ为数学期望．又

且X＝μ＋σU，所以由方差的性质得Var（X）＝Var（μ＋σU）＝σ²．这说明，正态分布N（μ，σ²）中另一个参数σ²就是X的方差．

若X的数学期望为μ，方差为σ²，则称X^*＝（X－μ）/σ为X的标准化随机变量，且可得E（X^*）＝0，Var（X^*）＝1．

5正态分布的3σ原则

设随机变量X～N（μ，σ²），则

从上式中可以看出：尽管正态变量的取值范围是（－∞，∞），但它的99.73%的值落在（μ－3σ，μ＋3σ）内．这个性质被实际工作者称作是正态分布的“3σ原则”．

6均匀分布

（1）均匀分布的密度函数和分布函数

若随机变量x的密度函数为

则称X服从区间（a，b）上的均匀分布，记作X～U（a，b），其分布函数为

（2）均匀分布的数学期望和方差

设随机变量X～U（a，b），则

又

由此得X的方差为：Var（X）＝E（X²）－[E（X）]²＝（b－a）²/12．

7指数分布

（1）指数分布的密度函数和分布函数

若随机变量X的密度函数为

则称X服从指数分布，记作X～Exp（λ），其中参数λ＞0．

指数分布的分布函数为：

指数分布是一种偏态分布，且其随机变量只可能取非负实数，指数分布常被用作各种“寿命”分布，如电子元器件的寿命、动物的寿命、电话的通话时间、随机服务系统中的服务时间等都可假定服从指数分布．

（2）指数分布的数学期望和方差

设随机变量X～exp（λ），则

又E（X²）＝2/λ²，由此得X的方差为Var（X）＝E（X²）－[E（X）]²＝2/λ²－1/λ²＝1/λ²．

（3）指数分布的无记忆性

指数分布的无记忆性：如果随机变量X～Exp（λ），则对任意s＞0，t＞0有

P（X＞s＋t|X＞s）＝P（X＞t）

上式的含义为：记X是某种产品的使用寿命，若X服从指数分布，那么已知此产品使用了s（h）没发生故障，则再能使用t（h）而不发生故障的概率与已使用的s（h）无关，只相当于重新开始使用t（h）的概率，即对已使用过的S（h）没有记忆．

8伽玛分布

（1）伽玛函数

称函数

为伽玛函数，其中参数a＞0．伽玛函数具有如下性质：

①Γ（1）＝1，

②Γ（α＋1）＝αΓ（α）

当α为自然数n时，有Γ（n＋1）＝nΓ（n）＝n！（可用分部积分法证得）．

（2）伽玛分布

若随机变量X的密度函数为

则称X服从伽玛分布，记作X～Ga（α，λ），其中α＞0为形状参数，λ＞0为尺度参数．图2-1-4给出若干条λ固定、α不同的伽玛密度函数曲线，从图中可以看出：

图2-1-4　λ固定、不同a的伽玛密度函数曲线

①当0＜α＜1时，p（x）是严格下降函数，且在x＝0处有奇异点．

②当α＝1时，P（x）是严格下降函数，且在x＝0处p（0）＝λ．

③当1＜α≤2时，P（x）是单峰函数，先上凸、后下凸．

④当α＞2时，P（x）是单峰函数，先下凸、中间上凸、后下凸．且α越大，P（x）越近似于正态密度，但伽玛分布总是偏态分布，α愈小其偏斜程度愈严重．

（3）伽玛分布Ga（α，λ）的数学期望和方差

利用伽玛函数的性质，可得伽玛分布Ga（α，λ）的数学期望为

又因为E（X²）＝α（α＋1）/λ²，由此得X的方差为Var（X）＝E（X²）－[E（X）]²＝α/λ²．

（4）伽玛分布的两个特例

①α＝1时的伽玛分布就是指数分布，即Ga（1，λ）＝Exp（λ）；

②α＝n/2，λ＝1/2时的伽玛分布是自由度为n的χ²（卡方）分布，记为χ²（n），Ga（n/2，1/2）＝χ²（n），其密度函数为

这里n是χ²分布的唯一参数，称为自由度，它可以是正实数，但更多的是取正整数．因为χ²分布是特殊的伽玛分布，故由伽玛分布的期望和方差，很容易得到χ²分布的期望和方差为E（X）＝n，Var（X）＝2n．

9贝塔分布

（1）贝塔函数

函数

为贝塔函数，其中参数a＞0，b＞0．贝塔函数具有如下性质：B（a，b）＝B（b，a）．

（2）贝塔函数与伽玛函数间有关系：B（a，b）＝Γ（a）Γ（b）/Γ（a＋b）．

（3）贝塔分布

若随机变量X的密度函数为

则称X服从贝塔分布，记作X～Be（a，b），其中a＞0，b＞0都是形状参数．

（4）贝塔分布Be（a，b）的数学期望和方差

利用贝塔函数的性质，可得贝塔分布Be（a，b）的数学期望为E（X）＝a/（a＋b）．

又因为

由此得X的方差为

六、随机变量函数的分布

1离散随机变量函数的分布

设x是离散随机变量，X的分布列为

则Y＝g（X）也是一个离散随机变量，此时Y的分布列就可很简单地表示为

当g（X₁），g（X₂），…g（X_n）…中有某些值相等时，则把那些相等的值分别合并，并把对应的概率相加即可．

2连续随机变量函数的分布

对连续随机变量X，分以下几种情况讨论Y＝g（X）的分布．

（1）当g（x）为严格单调时有以下定理：

①设X是连续随机变量，其密度函数为p_χ（x），Y＝g（X）是另一个随机变量．若y＝g（x）严格单调，其反函数h（Y）有连续导函数，则Y＝g（X）的密度函数为

其中a＝min{g（－∞），g（∞）}，b＝max{g（－∞），g（∞）}．

②设随机变量X服从正态分布N（μ，σ²），则当a≠0时，有Y＝ax＋b～N（aμ＋b，a²σ²）．

这个定理表明：正态变量的线性变换仍为正态变量，其数学期望和方差可直接从线性变换求得．若取a＝1/σ，b＝－μ/σ，则Y＝ax＋b～N（0，1）．

③对数正态分布：设随机变量X～N（μ，σ²），则Y＝e^x的概率密度函数为

这个分布被称为对数正态分布，记为LN（μ，σ²），其中μ称为对数均值，σ²称为对数方差．对数正态分布LN（μ，σ²）是一个偏态分布．

④设随机变量X服从伽玛分布Ga（α，λ），则当k＞0时，有Y＝kX～Ga（α，λ/k）．

⑤若随机变量X的分布函数F_X（x）为严格单调递增的连续函数，其反函数F^－¹_X（y）存在，则Y＝F_X（x）服从（0，1）上的均匀分布U（0，1）．

（2）当g（x）为其他形式时，当寻求Y＝g（X）的分布有困难时，可直接由Y的分布函数F_y（y）＝P（g（X）≤y）出发，按函数g（x）的特点作个案处理．

七、分布的其他特征数

1k阶矩

设X为随机变量，k为正整数．如果以下的数学期望都存在，则称μ_k＝E（X^k）为X的k阶原点矩，称v_k＝E（X－E（X））^k为X的k阶中心矩．

显然，一阶原点矩就是数学期望，二阶中心矩就是方差．由于|X|^k^－¹≤|X|^k＋1，故k阶矩存在时，k－1阶矩也存在，从而低于k的各阶矩都存在．

2变异系数

方差（或标准差）反映了随机变量取值的波动程度，但在比较两个随机变量的波动大小时，如果仅看方差（或标准差）的大小有时会产生不合理的现象．

定义：设随机变量X的二阶矩存在，则称比值

为X的变异系数．

变异系数是以其数学期望为单位去度量随机变量取值波动程度的特征数，标准差的量纲与数学期望的量纲是一致的，所以变异系数是一个无量纲的量，从而消除量纲对波动的影响．

3分位数

设连续随机变量X的分布函数为F（x），密度函数为p（x）．对任意p∈（0，1），称满足条件

的x_p为此分布的p分位数，又称下侧p分位数．

同理，称满足条件的x_p′为此分布的上侧p分位数．

注：分位数与上侧分位数是可以相互转换的，其转换公式如下：

x_p′＝x₁_－_p，x_p＝x₁_－_p′

4中位数

设连续随机变量X的分布函数为F（x），密度函数为p（x）．称p＝0.5时的p分位数x_0.5为此分布的中位数，即x_0.5满足

中位数的位置常在分布的中部，见图2-1-5．

图2-1-5　连续随机变量的中位数

5偏度系数

设随机变量X的前三阶矩存在，则如下比值

称为X（或分布）的偏度系数，简称偏度．

当β_s＞0时，称该分布为正偏，又称右偏；当β_s＜0时，称该分布为负偏，又称左偏．偏度β_s是描述分布偏离对称性程度的一个特征数．

6峰度系数

定义：设随机变量X的前四阶矩存在，则如下比值

称为X（或分布）的峰度系数，简称峰度．

峰度β_k是相对于正态分布而言的超出量，即峰度β_k是X的标准化变量与标准正态变量的四阶原点矩之差，并以标准正态分布为基准确定其大小，是描述分布尖峭程度和（或）尾部粗细的一个特征数．

当β_k＞0时，表示标准化后的分布比标准正态分布更尖峭和（或）尾部更粗；当β_k＜0时，表示标准化后的分布比标准正态分布更平坦和（或）尾部更细；当β_k＝0表示标准化后的分布与标准正态分布在尖峭程度与尾部粗细相当．

第2章 随机变量及其分布

2.1 复习笔记

第2章　随机变量及其分布

2.1　复习笔记